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op te lossen. 

Dit boek leent zich uitstekend voor gebruik in verschillende leeromgevingen, niet alleen 
in onderwijsprocessen waarin de student zelfstandig of in projecten werkt, maar ook in 
college-instructievorm. 
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1.1 Wat is statistiek”? 


ledereen doet in het dagelijks leven regelmatig uitspraken op grond van zelf verrichtte waar- 
nemingen. ledereen spreekt wel eens toekomstverwachtingen uit op grond van gebeurtenis- 
sen die zich in het verleden hebben afgespeeld. Iedereen wordt wel eens benaderd met het 
verzoek in het kader van een of ander onderzoek mee te doen aan een enquête. Vrijwel ie- 
dere automobilist wordt wel eens door de politie aangehouden voor een routinecontrole van 
auto, autopapieren of alcoholgebruik. Iedereen wordt via de media regelmatig geconfron- 
teerd met allerlei gegevens met betrekking tot maatschappelijk of politiek relevante zaken. 
ledereen koopt voedingsmiddelen en andere levensbehoeften waarvan de kwaliteit door de 
fabrikant en door de keuringsdienst van waren is gecontroleerd. Velen wagen zich wel eens 
aan een gokje in loterij, lotto, toto, casino of welk ander kansspel dan ook. Menigeen be- 
geeft zich op de aandelenmarkt, soms zelfs op grote schaal. 

In al deze gevallen hebben we het over zaken die direct of indirect te maken hebben met het 
vakgebied waarover wij in dit boek het een en ander willen vertellen: statistiek. 


Definitie 

Statistiek is het verzamelen, ordenen, presenteren en karakteriseren van (meestal nume- 
rieke, dat wil zeggen uit getallen bestaande) informatie met als doel deze informatie te 
helpen analyseren en het voorbereiden van beslissingen te ondersteunen. 


1.2 Wanneer gebruiken we statistiek? 


In het bedrijfsleven en bij de overheid speelt statistiek een belangrijke rol. Statistiek wordt 
toegepast bij alle grote en vele kleinere handels- en industriële ondernemingen, vooral 
op het gebied van de marketing en de kwaliteitsbeheersing. In het bank- en verzeke- 
ringswezen wordt statistiek toegepast om voorspellingen te kunnen doen op korte, mid- 
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dellange of lange termijn. Bij vele zo niet alle gemeentelijke, provinciale en landelijke 
(semi)overheidsinstellingen, wordt statistiek gebruikt om informatie op logische en duide- 
lijke wijze te verwerken en te presenteren. Aan universiteiten en hogescholen wordt statis- 
tiek vooral gebruikt om meetresultaten te interpreteren en te analyseren. In allerlei takken 
van de wetenschap is statistiek een waardevol hulpmiddel om bepaalde vooronderstellingen 
te kunnen bevestigen of te ontkennen. 

Bij het trekken van conclusies en het nemen van beslissingen is het niet verantwoord zich 
uitsluitend op intuïtie of op subjectieve inzichten te baseren. Een meer kritische houding 
is noodzakelijk. Statistiek is dan een waardevol hulpmiddel voor het trekken van verant- 
woorde conclusies. Men zal zich daarbij moeten baseren op objectieve gegevens die door 
middel van vooronderzoek zijn verkregen. Een dergelijk vooronderzoek kan bestaan uit 
een marktonderzoek, een enquête, een experiment (proefopzet), een simulatie-onderzoek 
(nabootsing van de werkelijkheid, meestal met behulp van een computer), een kwaliteits- 
onderzoek, een arbeidsanalyse, een literatuuronderzoek, enzovoorts. Zo'n onderzoek kost 
soms veel tijd (dus geld). De omvang van zo’n vooronderzoek is daarom meestal ееп afwe- 
ging tussen de kosten en de te bereiken doelen. Zo is het aantal ondervraagden bij enquêtes 
voor het voorspellen van verkiezingsuitkomsten meestal niet groter dan duizend, maar dit 
aantal is voor het doel groot genoeg. Voorspellingen tijdens de verkiezingsdag zelf kunnen 
vanzelfsprekend nauwkeuriger, al naar gelang het aantal uitgebrachte stemmen. 


1.3 Statistiek voor bedrijf en industriële productie 


In de tweede helft van de vorige eeuw is de rol van de statistiek in het bedrijfsleven steeds 
groter geworden. Enerzijds is dat het gevolg van de steeds betere hulpmiddelen. Compu- 
ters werden steeds sneller, waardoor ook grote verzamelingen gegevens snel geanalyseerd 
konden worden. De op het gebruik van statistiek gerichte computersoftware werd steeds 
krachtiger en gebruiksvriendelijker, onder andere door sterke verbeteringen in de grafische 
interface. Een voor velen herkenbaar voorbeeld is de televisieuitzending op de avond na de 
verkiezingen voor de Tweede Kamer. 

Anderzijds is de behoefte aan het gebruik van statistiek sterk toegenomen, bijvoorbeeld ten 
gevolge van het streven naar steeds betere kwaliteit. In grotere bedrijven wordt statistiek 
tegenwoordig veelvuldig gebruikt in het kader van het totale kwaliteitsbeleid. Zeker in de 
westerse wereld (en in Japan) is statistische controle tijdens productieprocessen steeds be- 
langrijker geworden. Aanvankelijk werden hiervoor kwaliteitscontroleurs ingeschakeld. In 
de laatste tien jaar heeft men in veel bedrijven kans gezien de procescontrole te automa- 
tiseren. Op basis van continue controle kan een computer zonder menselijke tussenkomst 
het productieproces bijsturen. Om te begrijpen wat er in dat geval gebeurt, is kennis van de 
statistiek noodzakelijk. Een geheel ander voorbeeld van het gebruik van statistiek in het be- 
drijfsleven ligt op het gebied van de marketing en de logistiek. Door statistisch onderzoek 
van marketinggegevens kan de behoefte aan bepaalde producten goed ingeschat worden. 
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Met behulp van statistische voorspelmethoden kan de vraag naar een bepaald product ook 
getalsmatig voorspeld worden. Diezelfde statistiek kan ook worden gebruikt om een ef- 
ficiënte voorraadpolitiek te bereiken. Hierbij worden de vraag naar een product еп de op 
te bouwen voorraad van dat product zodanig op elkaar afgestemd dat de kosten voor de 
producent zo laag mogelijk zijn. 


1.4 Computer en statistiek 


De tijd dat men statistiek bedreef met een zakrekenmachine is vrijwel voorbij. Wel be- 
schikt vrijwel iedere eenvoudige ‘scientific’ pocketcalculator over enkele statistische func- 
ties. Maar zonder controle op de invoer van gegevens is zo’n apparaatje eigenlijk onge- 
schikt. Er is echter tegenwoordig veel computersoftware beschikbaar om waarnemings- 
uitkomsten te rangschikken, te karakteriseren en te presenteren. Ook zijn (vrijwel) alle 
wiskundige modellen die voor de toegepaste statistiek van belang zijn, in computersoftware 
beschikbaar. Spreadsheetprogramma'’s zoals EXCEL bieden talloze mogelijkheden. Nog 
meer geavanceerde toepassingen, ook ten aanzien van het invoeren van (soms massa’s) ge- 
gevens, worden geboden door gespecialiseerde pakketten. We noemen SPSS, Minitab, SAS 
en ACTIVESTATS. In dit boek zullen we ons beperken tot een aantal toepassingen met 
behulp van EXCEL, omdat dit programma binnen ieders bereik ligt. 


1.5 De fasen van een statistisch onderzoek 


De vorm waarin verzamelde (en soms ook reeds bestaande) informatie ter beschikking 
komt, is meestal niet geschikt om daaruit rechtstreeks conclusies te trekken: men zal het 
eerst op een of andere wijze moeten ordenen. Om het risico op verkeerde conclusies en ten 
gevolge daarvan op foutieve beslissingen tot een minimum te beperken, dient een derge- 
lijke ordening op verantwoorde wijze te geschieden. Ook nadat verzameld cijfermateriaal 
is geordend, zal het meestal nog niet mogelijk zijn er al conclusies uit te trekken: een ver- 
dere analyse van het verzamelde en geordende cijfermateriaal zal noodzakelijk zijn. Vaak 
wordt een dergelijke analyse voorafgegaan door het berekenen van allerlei karakteristieke 
grootheden van het cijfermateriaal, het zogenaamd karakteriseren. 


1.5.1 Beschrijvende statistiek 

Het is de beschrijvende statistiek die ons de hulpmiddelen biedt om cijfermateriaal te ver- 
zamelen, te ordenen en te karakteriseren. Vaak is de organisatie rondom het verzamelen, 
het ordenen, het karakteriseren en het analyseren van het voor een onderzoek benodigde 
cijfermateriaal zo complex, dat men de hulp van specialisten (statistici, marktonderzoekers, 
computerdeskundigen, vakspecialisten) moet inroepen. Zeker in dat geval — maar in feite 
altijd — zal men veel aandacht moeten besteden aan de voorbereiding van het onderzoek. 
Zo zal men vóór de aanvang van het onderzoek nauwkeurig moeten formuleren wat de 
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doelstelling van het onderzoek is en zal men moeten vaststellen welk cijfermateriaal in het 
kader van deze doelstelling van belang is en dus verzameld moet worden. Daarbij mag niet 
vergeten worden afspraken te maken over de te volgen waarnemingsmethode en over de 
daarbij te gebruiken hulpmiddelen en de te hanteren nauwkeurigheid. Verder dient men van 
tevoren vast te leggen welke analysemethoden gebruikt zullen worden. In de beschrijvende 
statistiek is het gebruik van een computer vanzelfsprekend geworden. 


1.5.2 Toegepaste statistiek 

Het onderdeel van de statistiek dat de methoden en technieken biedt om reeds verzameld, 
geordend en gekarakteriseerd cijfermateriaal te analyseren en om uit geanalyseerd cijfer- 
materiaal conclusies te trekken, noemen we de toegepaste statistiek. Deze toegepaste sta- 
tistiek (ook wel verklarende of analytische statistiek genoemd) is voor een belangrijk deel 
gebaseerd op de wetten van de kansrekening, reden waarom we ook wel spreken van sto- 
chastische statistiek (stochas = toeval). Aan de toegepaste statistiek liggen veel wiskundige 
modellen ten grondslag. In dit boek zullen we ons in algemene bewoordingen uitlaten over 
deze modellen. Het gaat in dit boek hoofdzakelijk om de toepassing van deze modellen en 
niet om de wiskundige verantwoording en de wijze waarop ze ontstaan. Op enkele wis- 
kundige modellen zullen we wel wat dieper ingaan, omdat het gebruik ervan enig inzicht 
vereist. 


1.6 Populatie en steekproef 


Voor een statistisch onderzoek zijn altijd kwantitatieve gegevens nodig. Een kwantitatief 
gegeven is een gegeven waarin de waarde (bijvoorbeeld 178 cm) van een kenmerk (bijvoor- 
beeld lengte) van een object (bijvoorbeeld een man van 21 jaar) in de vorm van een getal 
wordt vastgelegd. De vaststêlling van de waarde van een kenmerk van een object noemen 
we een waarneming, de vastgestelde waarde een waarnemingsuitkomst. Behalve de doel- 
stelling van een statistisch onderzoek dient ook de te onderzoeken populatie zo nauwkeurig 
mogelijk omschreven te worden. 


Definitie 

Onder een populatie verstaat men de verzameling van alle kwantitatieve gegevens die in 
het kader van de doelstelling van een statistisch onderzoek van belang zijn en die dan de 
elementen van de verzameling worden genoemd. 


In een onderzoek naar de lengte van de Nederlandse man van 21 jaar kan de populatie 
omschreven worden als de verzameling lengten van alle Nederlandse mannen van 21 jaar. 

Een populatie bezit bepaalde karakteristieken, waarvan sommige in een getal zijn vast te 
leggen. Een karakteristieke grootheid van een populatie noemen we een parameter van 
de populatie. In het onderzoek naar de lengte van de Nederlandse man van 21 jaar is de 
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gemiddelde lengte een voor de hand liggende parameter. Maar de populatie van lengten 
bevat meer parameters, zoals we later zullen zien. 

Een volgend aspect waaraan men bij het voorbereiden van een statistisch onderzoek aan- 
dacht dient te besteden, is de aard van het onderzoek: 100%-onderzoek of steekproefsgewijs 
onderzoek. Populaties zijn vaak zeer groot en soms zelfs ‘oneindig’ groot. In het eerste ge- 
val is een 100%-onderzoek van de totale populatie vaak te kostbaar en in het tweede geval 
zelfs onmogelijk. Maar ook bij een eindige populatie kan een 100%-onderzoek onmogelijk 
zijn, bijvoorbeeld bij een destructief onderzoek waarbij de objecten van onderzoek ter wille 
van het onderzoek vernietigd moeten worden (onderzoek op breekbaarheid, levensduur, ont- 
vlambaarheid, enzovoorts). In deze en dergelijke gevallen volstaat men met een steekproef 
uit de populatie. 


Definitie 
Een steekproef uit een populatie is een deelverzameling van die populatie en bevat een 
eindig aantal waarnemingsuitkomsten. 


In het kader van het eerder genoemde onderzoek vormen de lengten van alle Amsterdamse 
mannen van 21 jaar een steekproef uit de gedefinieerde populatie. Of het statistisch gezien 
een goede steekproef is, zou men kunnen betwijfelen. Men dient zich namelijk te realiseren 
dat aan het werken met steekproeven bepaalde risico’s verbonden zijn: allerlei karakteris- 
tieke grootheden van een steekproef, zoals de gemiddelde lengte, zijn slechts een schatting 
(officiële benaming: schatter) van de overeenkomstige parameter (in dit geval: gemiddelde 
lengte) van de populatie. De resultaten van een steekproefonderzoek bezitten daardoor een 
zekere mate van onnauwkeurigheid ! en een zekere mate van onbetrouwbaarheid, waardoor 
het risico ontstaat dat men verkeerde conclusies trekt en daardoor verkeerde beslissingen 
neemt. Men dient dus de nodige voorzichtigheid te betrachten bij het nemen van steekproe- 
ven. We komen er in de volgende hoofdstukken op terug. 


1.7 Steekproefonderzoek (voorbeschouwing) 


Hierboven is al aangegeven wat het verschil is tussen een populatie en een steekproef. In 
deze paragraaf zullen we een voorbeschouwing maken waarin we enkele vragen zullen op- 
werpen over de wijze waarop een steekproef genomen moet worden. 
Een eerste punt van belang bij het voorbereiden van een statistisch onderzoek is dat men 
— of men nu kiest voor een populatie-onderzoek of voor een steekproefonderzoek — vóór 
de aanvang van het onderzoek vaststelt volgens welke methode (marktonderzoek, enquête, 
simulatie, kwaliteitsonderzoek, enzovoorts) het onderzoek zal plaatsvinden. Daarbij komen 
l Ор de begrippen (on)nauwkeurigheid en (on)betrouwbaarheid komen we later in het boek uitvoerig 
terug. Thans zij slechts provisorisch opgemerkt dat de conclusie “de gemiddelde lengte ligt tussen 


170 en 180 cm” onnauwkeuriger is dan de conclusie “de gemiddelde lengte ligt tussen 174 en 176 
cm”. De onbetrouwbaarheid van dit soort conclusies is de kans dat zij niet juist zijn. 
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vragen aan de orde als: Hoe en met welke hulpmiddelen zullen de waarnemingen worden 
verricht? Hoe en met welke nauwkeurigheid zullen de waarnemingsuitkomsten worden 
vastgelegd? Hoe zullen de data worden verwerkt? Geeft de te volgen methode betrouwbaar 
en nauwkeurig genoeg de gewenste en/of noodzakelijke informatie? Wegen de kosten van 
de te volgen methode op tegen het voordeel dat men door het nemen van een juiste beslissing 
(of juist het vermijden van een onjuiste beslissing!) hoopt te bereiken”? 

Wanneer de waarnemingsuitkomsten zijn verzameld, gaat men er, vrijwel altijd met behulp 
van een computerprogramma, toe over deze te ordenen. Dit houdt in dat men de verza- 
melde waarnemingsuitkomsten gaat sorteren (in een gewenste volgorde gaat rangschikken) 
en/of gaat presenteren in de vorm van tabellen en/of grafieken (diagrammen). Nadat de 
verzamelde data geordend en/of gepresenteerd zijn, worden de benodigde en/of gewenste 
karakteristieke grootheden ervan berekend. Karakteristieke grootheden zijn getallen waar- 
mee men alle waarnemingsuitkomsten als het ware kan karakteriseren of samenvatten. Een 
voorbeeld is het (rekenkundig) gemiddelde, dat uiteraard alleen bruikbaar is bij kwantita- 
tieve variabelen (dit zijn variabelen waarvan de meetwaarde een getal is). 

Met het verzamelen, ordenen, presenteren en karakteriseren is de fase van de beschrijvende 
statistiek voltooid. Nu volgt de fase van de toegepaste statistiek: de verdere analyse van de 
waarnemingsuitkomsten, waarvan moet afhangen welke conclusies de uiteindelijk te nemen 
beslissingen moeten ondersteunen. 


1.7.1 Het nemen van steekproeven 

De belangrijkste vraag bij het nemen van een steekproef is hoe deze uit alle denkbare data 
van de populatie moet worden samengesteld. De bedoeling daarbij is om tegen minimale 
kosten met voldoende nauwkeurigheid en voldoende betrouwbaarheid (nogmaals: de be- 
grippen nauwkeurigheid en betrouwbaarheid zijn niet hetzelfde en zullen later worden uit- 
gelegd) conclusies te kunnen trekken over de karakteristieke grootheden van de gehele po- 
pulatie. Om dit te kunnen realiseren, zal de steekproef een goede afspiegeling moeten zijn 
van de populatie, dat wil zeggen zal de steekproef representatief moeten zijn (re-presenteren 
= opnieuw voorkomen). 


Definitie 
Een steekproef heet representatief wanneer alle (denkbare) eigenschappen van het te 
onderzoeken kenmerk in de populatie in voldoende mate in de steekproef vertegenwoor- 
digd zijn. 


Voorbeeld: men wil een enquête houden over het kiezersgedrag, voorafgaande aan de ver- 
kiezingen voor de Tweede Kamer. De populatie bestaat uit alle stemgerechtigde personen 
met een Nederlandse nationaliteit. Wat is een representatieve steekproef? Deze vraag is 
niet eenvoudig te beantwoorden. Een steekproef zal pas representatief zijn wanneer daarin 
een acceptabele verhouding bestaat tussen het aantal jongste kiezers (zeg onder 25 jaar), het 
aantal jonge kiezers (zeg tussen de 25 en de 45), het aantal kiezers van middelbare leeftijd 
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(zeg tussen 45 en 60 jaar) en het aantal kiezers dat ouder is. Daarmee zijn we er echter 
niet. De steekproef zal ook een afspiegeling moeten zijn tussen het aantal Nederlandse 
mannen en vrouwen. En tussen het aantal allochtone en autochtone Nederlanders. Er zal 
bovendien een goede afspiegeling moeten zijn tussen het aantal inwoners in grote steden 
en het aantal Nederlanders dat juist niet in gote steden woont. En ga zo maar door... In 
zijn algemeenheid zal men bij de beoordeling van de representativiteit van zo’n steekproef 
moeten nagaan welke eigenschappen van de te ondervragen personen in de populatie van be- 
lang zouden kunnen zijn (bijvoorbeeld leeftijd, geslacht, burgerlijke staat, opleidingsniveau, 
godsdienstige en/of politieke overtuiging, woonplaats) en vervolgens moeten nagaan in hoe- 
verre deze eigenschappen in de steekproef vertegenwoordigd zijn. Een steekproef met rela- 
tief te veel of te weinig ouderen, mannen, alleenwonenden, academici, rooms-katholieken, 
sociaal-democraten of Hagenaars zal in dat geval niet of niet voldoende representatief zijn. 
Een goed hulpmiddel om te bereiken dat een steekproef representatief genoeg is, vinden we 
in het nemen van een aselecte steekproef (a-select = niet uitgezocht). 


Definitie 

Een steekproef van n waarnemingsuitkomsten uit een populatie van N waarnemings- 
uitkomsten heet aselect wanneer elke deelverzameling van n waarnemingsuitkomsten 
uit de N waarnemingsuitkomsten van de populatie gelijke kans heeft om de te nemen 
steekproef te vormen. 


Merk op dat de begrippen representatief en aselect wel met elkaar samenhangen maar niet 
dezelfde betekenis hebben. Bij een steekproef die niet aselect is genomen, bestaat het gevaar 
dat deze niet representatief is. Maar een aselecte, doch ten opzichte van de omvang van de 
populatie relatief te kleine steekproef, zal meestal niet voldoende representatief zijn. Men 
kan bereiken dat een steekproef aselect is door ervoor te zorgen dat elk element in de po- 
pulatie gelijke kans heeft om in de steekproef te worden opgenomen. Dit kan men bereiken 
door bij het kiezen van een waarnemingsuitkomst uit de populatie geen enkele persoonlijke 
voorkeur te laten gelden voor het waar te nemen kenmerk. Of anders gezegd: door bij het 
verrichten van waarnemingen geen enkele vorm van subjectiviteit te laten meespelen. 

Het verdient aanbeveling daarvoor een methode te gebruiken waarbij door middel van loting 
van tevoren wordt vastgesteld welke data uit de populatie in de steekproef zullen worden 
opgenomen. Als hulpmiddel daarbij kan men gebruikmaken van lotingstabellen of van een 
randomgenerator. Een op dergelijke wijze genomen steekproef wordt een gelote steekproef 
genoemd (Engels: random). 

Zoals reeds eerder is gezegd, neemt men uit een populatie een steekproef omdat het te kost- 
baar is (bij grote populaties) of omdat het onmogelijk is (bij oneindig grote populaties of bij 
destructief onderzoek) om de gehele populatie te onderzoeken. Dit betekent niet dat men 
dus per definitie altijd een steekproef neemt. Zo zal men bijvoorbeeld bij kleine populaties 
vaak de gehele populatie onderzoeken (mits het onderzoek niet destructief is). Dat zal men 
ook doen, zelfs moeten doen, wanneer men niet het risico kan lopen op verkeerde conclu- 















































hoofdstuk 1 Inleiding 





sies en dus verkeerde beslissingen. Dit speelt bijvoorbeeld een rol bij het ontwerpen en het 
vervaardigen van producten die bij verkeerd functioneren een bedreiging kunnen vormen 
voor het welzijn, de gezondheid of misschien zelfs het leven van de gebruiker. Denk hierbij 
aan levensmiddelen, geneesmiddelen, smaak- en voedingsstoffen, cosmetica, gebruiksvoor- 
werpen, elektrische apparaten, vervoersmiddelen, enzovoorts. In dat kader mogen we van 
geluk spreken dat het, met name in de industrie, maar ook in andere toepassingsgebieden, 
als gevolg van de steeds verder voortschrijdende automatisering en mechanisering steeds 
eenvoudiger en minder kostbaar wordt om 100%-onderzoek te doen in plaats van steek- 
proefonderzoek. 


1.7.2 Het organiseren van enquêtes 
Een veelgebruikte methode van statistisch onderzoek vinden we in de enquête. Als afslui- 
ting van dit hoofdstuk willen we kort ingaan op het nemen van enquêtes. 

Enquêtes worden meestal uitgevoerd door gespecialiseerde instanties en onderzoekbureaus 
omdat de voorbereiding en de organisatie ervan erg zorgvuldig dient te geschieden, waar- 
voor deskundigheid een eerste vereiste is. 

In principe kan een enquête op twee verschillende manieren worden uitgevoerd: mondeling 
(al of niet telefonisch) en schriftelijk. Elk van beide methoden bezit zijn eigen voor- en 
nadelen. 

Een schriftelijke enquête kost in de uitvoeringsfase alleen portokosten en men kan er rela- 
tief veel mensen in een betrekkelijk korte tijd mee ondervragen. Een mondelinge enquête 
daarentegen is in de uitvoeringsfase zeer arbeidsintensief (hoge loonkosten) en kost veel tijd 
en/of geld. Daar staat tegenover dat een schriftelijke enquête doorgaans een hoog percen- 
tage non-response — het percentage van de ondervraagden dat om welke reden dan ook het 
enquêteformulier niet terugstuurt — kent, terwijl de meeste mensen die mondeling (al of niet 
telefonisch) door een enquêteur worden benaderd doorgaans meer bereid zijn de gestelde 
vragen te beantwoorden. 

Het optreden van het non-response-verschijnsel bij schriftelijke enquêtes is enigszins te 
beperken door de ondervraagden een beloning in het vooruitzicht te stellen (hetgeen echter 
weer kostenverhogend werkt). Men loopt echter het risico dat de uiteindelijk resterende 
steekproef van degenen die wel reageren niet meer representatief is. Bij een mondelinge 
enquête loopt men weer het risico dat door de veelheid van enquêteurs (overigens enigszins 
te beperken door de enquête telefonisch te houden) de eenduidigheid van de gestelde vragen 
en de objectiviteit van de gegeven antwoorden in gevaar komt. 

Het organiseren van enquêtes is niet de taak van de statisticus alleen. Zeker in de voor- 
bereidingsfase is dit in veel gevallen een kwestie van gemeenschappelijke zorg van een 
statisticus, een gedragswetenschapper (socioloog of psycholoog) en iemand die goed kan 
omgaan met daarvoor geschikte computerprogrammatuur. 








Het verzamelen van 
data 





2.1 Inleiding 


Aan elk statistisch onderzoek gaat het verzamelen van gegevens, waarnemingen of waarne- 
mingsresultaten (samengevat in het woord data) vooraf. In dit hoofdstuk zullen we uitvoerig 
daarop ingaan. We zullen het hebben over de wijze waarop data verzameld worden, hoe ze 
geordend worden en hoe ze gepresenteerd kunnen worden. In de statistiek is het van groot 
belang om data naar soort te kunnen onderscheiden. Daartoe moeten we eerst het begrip 
variabele nauwkeurig definiëren. Het begrip variabele kennen we uit de wiskunde als een 
grootheid (bijvoorbeeld x of y) waaraan een getalswaarde (al of niet in een bepaalde een- 
heid) toegekend kan worden. In de statistiek 15 het begrip variabele veel ruimer gedefinieerd. 


2.2 Het begrip variabele 


Definitie 

Wanneer een ‘kenmerk’ van een ‘object’ bij waarneming aan meerdere exemplaren van 
dat object niet noodzakelijkerwijs steeds dezelfde waarde oplevert, zegt men dat het 
kenmerk variabel is en noemt men het een variabele. 


Een kenmerk van een object als bedoeld in bovenstaande definitie is bijvoorbeeld het ge- 
wicht van een pasgeboren kind, de leeftijd van een kat, het vitaminegehalte van een tomaat 
of de levensduur van een gloeilamp. Maar ook: het aantal kinderen in een gezin, het aantal 
honden in een woonwijk, het aantal sinaasappelen in een krat of het aantal defecte exempla- 
ren in een dagproductie. Of: de hoeveelheid neerslag per dag, de hoeveelheid rode bloed- 
lichaampjes per centiliter bloed of de hoeveelheid zuurstofatomen per kubieke centimeter 
lucht. Vaak kan de waarde van een kenmerk van een object (dus de waarde van een vari- 
abele) in een reëel getal — de waarnemingsuitkomst — worden vastgelegd, maar dit is niet 
altijd het geval. Om tussen deze beide typen variabelen onderscheid te maken, definieert 
men: 
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Definitie 
Wanneer de waarde van een kenmerk van een object in een reëel getal kan worden uit- 
gedrukt, noemt men dat kenmerk een kwantitatieve variabele. 


Definitie | 
Wanneer de waarde уап een kenmerk van een object niet in een reëel getal Кап worden 
uitgedrukt, noemt men dat kenmerk een kwalitatieve variabele. 


Kwantitatieve variabelen worden onderscheiden in continue variabelen (ook wel meetbare 
grootheden genoemd) en discrete of discontinue variabelen (ook wel niet-meetbare of tel- 
bare grootheden genoemd). 


Definitie 
Een continue variabele 15 een kwantitatieve variabele waarvan de waarde kan worden 
uitgedrukt in elk reëel getal op een zeker interval. 


Definitie 
Een discrete (of discontinue) variabele is een kwantitatieve variabele die op een zeker 
interval slechts bepaalde waarden (meestal natuurlijke getallen) kan aannemen. 


Kwalitatieve variabelen worden onderscheiden in variabelen die rangschikbaar zijn (bij- 
voorbeeld de kleuren van de regenboog of de rangen van militairen) en variabelen die niet- 
rangschikbaar zijn (bijvoorbeeld de namen van politieke partijen of de merknamen van com- 
puterapparatuur). Rangschikbare kwalitatieve variabelen worden weer onderscheiden in 
continu-rangschikbare variabelen (de kleuren van de regenboog) en discreet-rangschikbare 
variabelen (de rangen van militairen). 


Opdracht 

Beschrijf voor de volgende voorbeelden de in bovenstaande definities gehanteerde begrip- 
pen ‘object’ en ‘kenmerk’ en ga na tot welk type (kwalitatief - kwantitatief, continu - dis- 
creet) de variabelen behoren. 


De kleur van de ogen van een pasgeboren baby. 

De stroomsterkte in een elektrisch netwerk. 

Het aantal pinda’s in zakjes van 100 gram. 

Het aantal geboren pandabeertjes per jaar. 

De treksterkte van betonstaal van 1 cm dikte. 

De mate van waardering voor een bepaalde politicus (“goed’, ‘matig’, ‘slecht’ ). 
De omzet per dag van een autoverhuurbedrijf. 

De kijkdichtheid van het NOS-journaal. 

De hoeveelheid microben in een kubieke centimeter slootwater. 

Het aantal kinderen in een gezin. 
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— De nationaliteit van in Nederland woonachtige buitenlanders. 

— Het totaal aantal bioscoopbezoekers van een bepaalde film. 

— De economische levensduur van een auto. 

— Het aantal dagen per jaar met meer dan 5 mm neerslag in De Bilt. 
— Het gemiddeld benzinegebruik per 100 km van een auto. 


Wanneer het onzeker is, dat wil zeggen wanneer het van het toeval afhangt welke waarde 
een kwantitatieve variabele bij waarneming zal aannemen (met andere woorden: welke 
waarnemingsuitkomst men zal vinden), noemt men die variabele een kansvariabele. Dus: 


Definitie 

Een kansvariabele (ook wel stochast genoemd, stochas = toeval) is een continue of dis- 
crete kwantitatieve variabele waarvan het van het toeval afhangt welke waarde deze bij 
waarneming zal aannemen. 


De naam van een kansvariabele wordt meestal aangeduid met een hoofdletter (bijvoorbeeld 
U, V, W), eventueel voorzien van een index (bijvoorbeeld X1, Y1, Z1). De waarde ervan 
(de waarnemingsuitkomst) wordt — zo deze nog niet bekend is — aangeduid met de over- 
eenkomstige kleine letter (dus и, v, w, x1, y1, 21). Dit houdt in dat bijvoorbeeld de op het 
eerste gezicht vreemde notatie X = x mogelijk is: de variabele met de naam X heeft als 
waarde x. 

Wanneer y volgens het een of andere functievoorschrift у = f (x) niet van het toeval afhangt 
maar afhangt van de gekozen waarde x van een ander kenmerk X, dan heet kenmerk Y (met 
waarde y) een deterministische variabele. Dit is ook het geval wanneer de waarde y bij elke 
waarneming aan Y hetzelfde is. Kenmerk Y is dan niet variabel maar deterministisch, in 
het laatste geval zelfs constant. Zo is bijvoorbeeld het jaarlijks te betalen rentebedrag Y op 
een hypotheek (mits de rente constant is) een deterministische variabele. De waarde y van 
dit bedrag is namelijk niet van het toeval afhankelijk, maar is — althans bij gelijkblijvende 
rentevoet — voor een levensverzekeringshypotheek constant en voor een annuïteit of een 
lineaire hypotheek volgens een bepaald functievoorschrift y = f(x) afhankelijk van de 
waarde x van het nog af te lossen bedrag X. 


2.3 Het meetniveau van een variabele 


Nadat aan een variabele metingen verricht zijn, zal men in veel gevallen de meetresultaten 
willen bewerken, bijvoorbeeld om het gemiddelde ervan te berekenen. Rekenkundige be- 
werkingen zijn echter lang niet altijd mogelijk. Het is natuurlijk onzin om de gemiddelde 
kleur ogen van 100 blanke kinderen te bepalen. Maar ook het middelen van hun geboorteja- 
ren is discutabel. Daarentegen kan het wel zinvol zijn om het gemiddelde te bepalen van hun 
leeftijden. Om te kunnen bepalen of rekenkundige bewerkingen wel of niet mogelijk zijn, 
worden variabelen gesorteerd naar hun meetniveau. Bij elk meetniveau wordt een bepaalde 
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schaal gehanteerd. Er zijn vier schalen: de ordinale en nominale schaal voor kwalitatieve 
variabelen: de ratio- en de intervalschaal voor kwantitatieve variabelen. 


2.3.1 Nominale schaal en ordinale schaal 

Wanneer een kwalitatieve variabele op geen enkele zinvolle wijze in een bepaalde volgorde 
gerangschikt kan worden, is een nominale schaal noodzakelijk. De namen van politieke par- 
tijen (PvdA, CDA, VVD, enzovoorts), de kleur van ogen (blauw, bruin, groen, enzovoorts), 
het geslacht (M/V), het feit of men wel eens een stickie gerookt heeft of niet (Ja/Nee); dit 
zijn variabelen die op een nominale schaal moeten worden aangebracht. Voor kwalitatieve 
variabelen waarvoor het wel zinvol is ze in een bepaalde volgorde te ordenen, wordt een or- 
dinale schaal gebruikt. Voorbeelden: de smaak van een bepaald merk soep (lekker, matig, 
niet lekker), de rang van een militair (korporaal, sergeant, luitenant, enzovoorts), de kwali- 
teit уап een product (——, —, 0, +, ++, dan wel: zeer slecht, slecht, redelijk, voldoende, 
goed). Hoewel een ordinale schaal iets beter weergeeft wat het verschil in de uitkomst van 
de variabele is, blijft het een zwakke vorm van meting. De waarde van het verschil tussen 
twee waarnemingsuitkomsten kan niet bepaald worden. 

We merken nog op dat het vaak voorkomt (vooral bij gebruik van een computerprogramma) 
dat de uitkomsten van zowel variabelen met een nominale schaal als variabelen met een 
ordinale schaal vervangen worden door een natuurlijk getal. Voorbeeld: Opel = 1, Volks- 
wagen = 2, Audi = 3 (variabele automerk, nominaal) of ‘zeer slecht’ = 1, ‘slecht’ = 2, 
‘matig’ = 3, ‘goed’ = 4, ‘uitstekend’ = 5 (kwaliteitsoordeel, ordinaal). We moeten daarbij 
wel bedenken dat het schaalkarakter door het coderen niet verandert, al lijkt dat wel zo! De 
volgorde (bij een nominale schaal) van, dan wel het verschil (bij een ordinale schaal) tussen 
de uitkomsten blijft immers ook na het coderen willekeurig. 


2.3.2 Intervalschaal en ratioschaal 
Op een intervalschaal is het verschil tussen twee waarnemingsuitkomsten meetbaar en van 
betekenis. Bijvoorbeeld, een man met een lengte van 1,78 m is 10 cm langer dan een man 
met een lengte van 1,68 m. Dat verschil van 10 cm heeft dan weer dezelfde betekenis wan- 
neer twee mannen met lengten van 1,96 m en 1,86 m vergeleken zouden worden. Tijden 
(Garen, maanden, dagen) zijn ook variabelen waar een intervalschaal van toepassing is. Im- 
mers het verschil tussen twee verschillende tijden is meetbaar en van betekenis. Het spreekt 
vanzelf dat een intervalschaal alleen van toepassing is op kwantitatieve variabelen 

Bij een ratioschaal (ook uitsluitend voor kwantitatieve variabelen) is het meetniveau nog 
hoger. Daarbij is ook een natuurlijk nulpunt aanwezig dat het mogelijk en vaak ook zinvol 
maakt verschillende waarnemingsuitkomsten op elkaar te delen. Zo kan men stellen dat 
iemand met een gewicht van 100 kg twee keer zo zwaar is als iemand met een gewicht van 
50 kg. Voor de variabele ‘lengte’ kan men dus ook een ratioschaal gebruiken. Maar voor 
de variabele ‘tijd’ is uitsluitend een intervalschaal bruikbaar. Het jaar 2000 (als historisch 
meetpunt) is uiteraard niet tweemaal zo groot als het jaar 1000. 
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Opdracht 
Geef aan van welke soort de volgende variabelen zijn en welk meetniveau ze hebben. 


— fruitsoort (appel, peer, sinaasappel, meloen); 

— tentamencijfer (1, 2, 3, ..., 10); 

— gemiddelde dagtemperatuur (gemeten in graden Celsius); 
— absolute temperatuur (gemeten in graden Kelvin); 

— aantal hartslagen per minuut; 

— treksterkte уап een staaf; 

— kleur; 

— gewichtsklasse (bijvoorbeeld van een bokser); 

— reistijd; 

— geboortejaar. 


2.4 Het samenstellen van tabellen en het tekenen van grafie- 
ken 


Naast het verzamelen van statistische gegevens (waarnemingsuitkomsten) behoort het ook 
tot het werkterrein van de beschrijvende statistiek deze gegevens op overzichtelijke wijze 
te ordenen in tabellen en grafieken. In deze paragraaf zullen we aan dit aspect van de 
beschrijvende statistiek enige aandacht besteden. 


2.4.1 Het samenstellen van tabellen 

Om de waarnemingsuitkomsten van een statistisch onderzoek in de vorm van een tabel te 
presenteren, moet deze er aantrekkelijk uitzien. Dit kan men onder andere bereiken door 
ervoor te zorgen dat de tabel is voorzien van een duidelijk en volledig op- of onderschrift 
en van een korte maar duidelijke omschrijving van de betekenis van de gebruikte regels 
en kolommen (bijschriften). De leesbaarheid van een tabel wordt in hoge mate bevorderd 
door een logische en overzichtelijke indeling. In het algemeen bestaat bij het samenstellen 
van tabellen de gewoonte liever enige nauwkeurigheid op te offeren wanneer daarmee be- 
reikt kan worden dat de leesbaarheid wordt bevorderd. Zo zal men numerieke gegevens bij 
voorkeur presenteren in niet meer dan 4 cijfers, eventueel — na afronding — in (bij voorkeur 
drievoudige) machten van 10. Zo zal bijvoorbeeld het getal 356183 gepubliceerd worden als 
356,2 x 10° of als 0,356 x 10°. Tabel 2.1 geeft een voorbeeld van tabelletje van 5 objecten 
met verschillende meetkenmerken. 
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Tabel 2.1 Lengte van 5 studenten 


nummer geslacht leeftijd lengte (in m) 


1 m 18 1,78 
2 у 19 1,69 
3 m 17 1,60 
4 у 18 1,78 
5 m 18 1,80 


In tabel 2.2 is in één oogopslag te zien hoe de waarnemingsuitkomsten over het gemeten 
interval verdeeld zijn. 


Tabel 2.2 Frequentietabel van de lengte van 25 vrouwen en 25 mannen 


lengte (in m) geslacht totaal 
mo у 


1,65-<1,70 | H 5 
1,70-< 1,75 4 10 14 


1,75-<1,80 10 6 16 
1,80-<1,85 6 4 10 
1,85-<1,90 4 | 5 

totaal 25 20 50 


Statistische software zoals EXCEL bevat vele mogelijkheden om naar eigen wens een ta- 
bel te presenteren. Via internet kunnen van vele verschijnselen tabellen worden bekeken 
en gedownload. Om kerngegevens over economische verschijnselen te verzamelen, is een 
bezoek op de website van het Centraal Bureau voor de Statistiek (www.cbs.nl) van harte 
aan te bevelen. 


2.4.2 Grafieken en afbeeldingen 
Een andere manier om verzamelde gegevens op overzichtelijke wijze te rangschikken en 
te presenteren, vinden we in het tekenen van grafieken, ook wel diagrammen genoemd. 
Het gedrag van statistisch onderzochte verschijnselen komt in een grafiek beter tot zijn 
recht. Eventueel bestaande samenhang tussen verschillende variabelen kan in een grafiek 
duidelijker herkend worden dan in een tabel. Er bestaan verschillende soorten grafieken, 
waarvan we enkele voorbeelden laten zien. Alle voorbeelden betreffen min of meer fictieve 
waarnemingen. Zij zijn gemaakt in EXCEL, dat een zeer krachtige ondersteuning biedt 
voor het maken van vele soorten grafieken en afbeeldingen. 
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Fig. 2.1 Zetelverdeling Tweede kamer 2001 
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Fig. 2.2 Percentage mannen en vrouwen dat zichzelf te dik vindt 
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Fig. 2.3 In- en uitvoer van enkele categorieën producten 
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Fig. 2.4 Wet van Ohm 
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Fig, 2.9 Verloop aandelenfondsen 


In bijlage A zullen we globaal laten zien hoe met EXCEL grafieken en afbeeldingen ge- 
maakt kunnen worden. 

Bij het tekenen van grafieken dienen we erop te letten dat de figuur voorzien is van een op- 
of onderschrift en van bijschriften langs de beide assen. Indien de grafieken niet op basis 
van eigen waarnemingen zijn gemaakt, dient een bronvermelding te worden gegeven. 

In figuur 2.1 zien we een cirkeldiagram van het aantal zetels in de Tweede Kamer voor 
de vijf grootste politieke partijen. Zo'n diagram wordt gebruikt om snel de verschillen te 
kunnen laten zien. In figuur 2.2 zien we een kolom- of staafdiagram waarin twee groepen 
met elkaar vergeleken worden. Figuur 2.3 is een staafstapeldiagram waarin vier groepen 
op twee verschillende manieren met elkaar vergeleken kunnen worden. Wil men van een of 
meerdere kwalitatieve of kwantitatieve variabelen laten zien met welke frequentie deze in 
verschillende klassen voorkomen, dan gebruikt men een (samengesteld) kolommendiagram 
of een staafstapeldiagram. In figuur 2.4 zien we een puntendiagram waarin meetresultaten 
tweedimensionaal tegen elkaar worden afgezet. Puntendiagrammen (ook wel scatterdia- 
grammen genoemd) — zie figuur 2.4 — worden gebruikt om te onderzoeken of er tussen twee 
kwantitatieve variabelen een bepaalde samenhang bestaat respectievelijk om te laten zien 
dat een dergelijke samenhang bestaat. 

In figuur 2.5 zien we ееп lijndiagram (ook wel polygoon genoemd). Hier is het gebruikt 
om een zogenaamde tijdreeks weer te geven. Een tijdreeks is een aantal waarnemingen die 
gedaan zijn na gelijke tijdsintervallen. 

Er zijn nog veel meer soorten grafieken of diagrammen mogelijk. We hoeven de krant er 
maar op na te slaan om voorbeelden aan te treffen. In EXCEL is het aantal variaties van 
grafieken eveneens zeer groot. 

In het volgende hoofdstuk zullen we nog het histogram tegenkomen. 
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3.1 Inleiding 


In dit hoofdstuk wordt de kern behandeld van de beschrijvende statistiek. De waarnemings- 
resultaten, meetwaarden oftewel data die bij het statistisch onderzoek (populatie of steek- 
proef) betrokken worden, zullen vrijwel altijd in klassen (of categorieën) worden verdeeld. 
We spreken dan van freguentieverdelingen. 


3.2 Frequentieverdelingen 


Het verdelen in klassen begint met het opstellen van een frequentietabel. 


3.2.1 Frequentietabel 

Een groot aantal waarnemingen geeft een onoverzichtelijk geheel, als er geen ordening is 
toegepast. Om een beter inzicht in de getallenmassa te krijgen, geeft men de gegevens weer 
in een overzichtelijke tabellen (= frequentietabellen). Aan de hand van een voorbeeld gaan 
we dit nader toelichten. 


Voorbeeld 1 

We hebben de beschikking over de uitkomsten van een steekproef van 50 gewichtsme- 
tingen van een afvulmachine (in grammen, afgerond op een geheel getal). De gegevens 
zijn vermeld in tabel 3.1. 


Opmerking 

De data van voorbeeld 1 zijn gehele getallen. De gemeten variabele (gewicht van een 
af vulling) zal dan ook opgevat worden als een discrete variabele. We moeten ons echter 
goed realiseren dat een gewicht in principe een reëel getal is. Daarom hebben we het 
eigenlijk over een continue variabele. Dat we de gewichten toch beschouwen als waar- 
den van een discrete variabele, komt uitsluitend omdat we de data hebben afgerond op 
gehele getallen. 
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Tabel 3.1 Resultaten van 50 gewichtsmetingen (in grammen) 





Daar de gegevens van tabel 3.1 in volgorde van de metingen zijn gegeven, geeft dit geen 
duidelijk beeld van de getallenmassa. Om een beter inzicht te krijgen, zetten we de gegevens 
in volgorde van grootte en noteren hoe vaak een bepaalde uitkomst voorkomt. Dit is het 
basisprincipe van een frequentietabel. De resultaten staan weergegeven in tabel 3.2. 








Tabel 3.2 Resultaten van 50 gewichtsmetingen 

| meetwaarde | aantal | meetwaarde | aantal | meetwaarde | aantal | meetwaarde | aantal | 
80 - 90 2 100 - 110 | 
81 | 91 4 101 - 111 1 
82 - 92 4 102 2 112 - 
83 - 93 | 103 - 113 - 
84 | 94 6 104 - 114 - 
85 - 95 3 105 - 115 - 
86 1 96 10 106 | 116 - 
87 3 97 | 107 - [17 - 
88 3 98 - 108 - 118 - 
89 2 99 3 109 - 119 - 


Tabel 3.2 geeft een duidelijker beeld van de verdeling van de verschillende meetuitkomsten. 
Een nog duidelijker beeld ontstaat als de gegevens van de tabel worden weergegeven in een 
grafiek. In figuur 3.1 is dit uitgevoerd. De frequentie per meetuitkomst is in kolomvorm 
boven de daarbij behorende gewichtswaarden uitgezet. De hoogte van de kolom correspon- 
deert met de frequentie per meetuitkomst De kolommen liggen in principe tegen elkaar, 
in tegenstelling tot een kolom- of staafdiagram (waarin de staven los van elkaar opgericht 
zijn). Een dergelijke grafiek noemen we een histogram. 


Ondanks het feit dat figuur 3.1 een goed overzicht geeft van de verdeling van meetuit- 
komsten van de steekproef, geeft deze nog geen goede ‘beschrijving’ van de werkelijkheid 
(=populatie), er zijn te veel lege ‘plekken’ in de steekproefverdeling, die bij de populatie- 
verdeling vermoedelijk niet zullen voorkomen. 

Om een goede beschrijving van de werkelijkheid te krijgen op grond van steekproefuit- 
komsten, moeten we een andere procedure volgen. Hiervoor is een standaardprocedure 
(150-погт) opgesteld, die we in de volgende subparagraaf zullen bespreken. 
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Fig. 3.1 Histogram van 50 gewichtsbepalingen (Tabel 3.2, klassenbreedte b = 1) 


3.2.2 Het opstellen van een frequentietabel 

Om een beter inzicht te krijgen in de verdeling van de populatie zijn we niet zo zeer 
geïnteresseerd in de aantallen per meetuitkomst, maar meer in het aantal per voorgeschre- 
ven interval. Als we bijvoorbeeld de lengte (in cm) meten van een aantal personen, dan zijn 
de mogelijke uitkomsten getallen tussen 50 en 250. Om een indruk van de verdeling van 
de populatie (= totale bevolking) te krijgen, zijn we niet zozeer geïnteresseerd in elke waar- 
neming afzonderlijk, als wel in de ‘“frequentiedichtheid’, dat wil zeggen we willen graag 
weten hoeveel waarnemingen er in een bepaald interval liggen. In de bovengenoemde leng- 
temeting interesseert het ons minder hoeveel mensen in de steekproef een lengte hebben 
van bijvoorbeeld 154 cm of 157 cm. Belangrijker is het te weten dat er van de bijvoorbeeld 
100 mensen in de steekproef er 5 een lengte hebben tussen 150 en 160 ст еп 10 een lengte 
hebben tussen 160 en 170 cm. Hierdoor krijgen we een veel beter beeld van de populatie, 
waaruit de steekproef is getrokken. Dit is in principe de basisregel van een statistisch on- 
derzoek. De steekproefresultaten op zichzelf zijn niet de hoofdzaak van een onderzoek. De 
steekproefresulaten hebben we nodig om een beeld te krijgen van de werkelijkheid. 

Nu terug naar ons voorbeeld met de gegevens van tabel 3.1. We verdelen het totale meetin- 
terval, waarbinnen de waarnemingsuitkomsten vallen, in een aantal kleinere intervallen, 
meestal klassen genoemd. Het begin- en eindpunt van een klasse noemt men de klassen- 
grenzen. Het verschil tussen twee opeenvolgende klassengrenzen wordt de klassenbreedte 
(= b) genoemd. 

De totale lengte van het meetinterval is het verschil tussen de hoogste еп de laagste meet- 
waarde: 111 — 81 = 30 gram. Dit interval verdelen we in een aantal klassen, waarbij de 
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klassenbreedte in alle gevallen gelijk is. Bij zeer scheve verdelingen — bijvoorbeeld een ver- 
deling met veel lage en weinig hoge waarden — worden vaak verschillende klassenbreedten 
genomen. In ons voorbeeld nemen we respectievelijk een klassenbreedte van 4 en van 10 
gram. Dit betekent dat we in het eerste geval 4 meetwaarden samenvoegen, bijvoorbeeld 
80 - 83, 84 - 87, 88 - 91, enzovoorts, en in het tweede geval 10 meetwaarden, bij voorbeeld 
80 - 89, 90 - 99, enzovoorts. Vervolgens kan nu elke meetuitkomst ingedeeld worden in 
een van de voorgeschreven klassen. Als dit is uitgevoerd voor alle meetuitkomsten, kan een 
histogram worden getekend. 


In figuur 3.2 is het histogram getekend voor een klassenbreedte van 4 en in figuur 3.3 voor 
een klassenbreedte van 10 gram. 


80 90 100 110 80 90 100 110 121 


Fig. 3.2 Klassenbreedte b = 4 Fig. 3.3 Klassenbreedte b = 10 


Het histogram in figuur 3.2 geeft een veel beter totaalbeeld dan het histogram in figuur 3.1. 
Tegenover dit voordeel staat het nadeel dat details verloren zijn gegaan, doordat de oor- 
spronkelijke meetuitkomsten van de steekproef niet meer teruggevonden kunnen worden. 
In figuur 3.3 is het verlies aan details erg groot, terwijl het histogram in vergelijking met 
figuur 3.2 er niet duidelijker op geworden is. Dit betekent dat er een optimale indeling in 
klassen bestaat. De hierbij behorende procedure zullen we nu vastleggen in een voorschrift. 


Gegeven is een aantal meetwaarden. Dit aantal geven we aan met de letter n. | 

1. Bepaal nu eerst het verschil tussen de hoogste en laagste meetwaarde in de steekproef. 
Dit verschil wordt spreidingsbreedte (Eng: range) genoemd en wordt genoteerd als R. 

2. De klassenbreedte (b) verkrijgen we door eerst de gevonden spreidingsbreedte te delen 
door de wortel uit het aantal waarnemingen. 


range А 


Ja Ja (3.1) 
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De uitkomst van deze deling wordt vervolgens volgens bestaande regels afgerond in 
het aantal decimalen waarin de meetwaarden van de steekproef zijn uitgedrukt. En 
daarmee hebben we b gevonden. 

De klassengrenzen worden nu gevormd door waarden die veelvouden zijn van de ge- 
vonden klassenbreedte in punt 2. 

Ten slotte wordt voor elke klasse een klassenmidden bepaald, door het rekenkundig 
gemiddelde te nemen van de klassenondergrens en klassenbovengrens. 


Opmerking 
Bij toepassing van bovenstaande ISO-procedure is het aantal klassen ongeveer gelijk aan 
/n. Dit kunnen we dan ook als vuistregel hanteren. 


Voor de gegevens uit tabel 3.1 levert dit het volgende resultaat op: 


f; 
2. 


п = 50 en R = 111 = 81 = 30 
30 


R 

yn v50 
meetuitkomsten zijn in dit geval in eenheden, dus zonder decimalen gegeven). 
De klassengrenzen worden nu gevormd door getallen die deelbaar zijn door 4. De klas- 
sengrenzen van de eerste klasse krijgt men door in de buurt van de laagste meetuitkomst 


De klassenbreedte is: b = = 4,24, afgerond geeft dit b = 4 (want de 


(81) waarden te zoeken, die veelvouden van 4 zijn. De eerste klassenondergrens wordt 
dan 80 en de bijbehorende klassenbovengrens 84. De laagste meetuitkomst 81 valt in 
deze klasse. De grenzen van de volgende klassen worden: 

80+ 2.4 = 88 

80+ 3:4 = 92 

80 +4. 4 = 96 enzovoorts. 

Nadeel van deze indeling is dat er meetuitkomsten zijn die precies met een klassen- 
bovengrens en de volgende klassenondergrens samenvallen. Zo geeft de waarde 84 
moeilijkheden, omdat het niet duidelijk is of deze waarde thuishoort in de klasse 80 - 
84 of in de klasse 84 - 88. Deze moeilijkheden hadden we kunnen voorkomen door de 
meetwaarden niet af te ronden. We moeten ons realiseren dat de meetwaarde 84 in feite 
een afgerond getal is tussen 83,5 en 84,5. Om nu de vraag te omzeilen in welke klas- 
sen de afgeronde waarden 84, 88, 92 enzovoorts thuishoren, worden de klassengrenzen 
verminderd met de helft van het afrondingsinterval. Let wel: dit is alleen nodig bij 
discrete variabelen en niet bij continue variabelen. Wanneer we als meting 84,000000 
gram hebben gedaan en niet hebben afgerond, kunnen we de klassengrens wel gelijk 
aan 84 kiezen. Het verschil tussen de waarnemingsuitkomsten 83,999999, 84,000000 
en 84,000001 is namelijk te verwaarlozen. In ons voorbeeld zijn de meetuitkomsten 
weergegeven in eenheden, dus het afrondingsinterval is 1. De klassengrenzen worden 
nu: 

80 — 0,5 = 79,5; 84 — 0,5 = 83,5; 88 — 0,5 = 87,5 enzovoorts. We krijgen dan de 
klassen: 

79,5 — 83,5 (hier zit 83 dus wel in, 84 niet meer) 
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93,9 — 87,3 

87,5 — 91,5 enzovoorts. 

Naast deze notatie komt men vaak een eenvoudiger notatie tegen. Voor de berekende 
klassenbovengrens zet men het ‘kleiner dan’ (<) -teken. Dit betekent: alle waarnemin- 
gen tot aan de betreffende klassenbovengrens. 

In ons voorbeeld vinden we dan de volgende klassen: 

80— < 84 

84— < 88 

88— < 92 enzovoorts. 

We moeten ons goed realiseren dat we in dit voorbeeld in de klasse 80— < 84 nog 
steeds alle mogelijke (afgeronde) waarnemingsuitkomsten 80, 81, 82 en 83 kunnen 
opnemen, en niet de waarnemingsuitkomst 84! 


Opmerking 

Wanneer de waarnemingsuitkomsten als niet-afgeronde reële getallen werden beschouwd, 
heeft de notatie 80— < 84 een andere betekenis dan in dit geval, waarbij de waarne- 
mingsuitkomsten gehele getallen zijn. Immers, wanneer de meetwaarde een niet-afge- 
rond reëel getal zou zijn geweest, wordt met de klasse 80— < 84 het interval 80,000000 
- 84,000000 bedoeld. 


4. Het midden van de klassen (klassenmidden) krijgen we uit het gemiddelde van de klas- 
senbovengrens en de klassenondergrens, voor de eerste twee klassen zijn dit: 


79,5 + 83,5 83,5 + 87,5 

а ц = 81,5 еп арта = 82,5 enzovoorts. 
2 2 

Opdracht 


О + 84 


8 
Ga па dat de klasse 80— < 84 in dit geval niet als klassenmidden = 82 heeft. 





Door voor de bovenstaande procedure te kiezen, krijgt men slechts één mogelijke, unieke 
klassenindeling. Iedereen krijgt, op grond van eenzelfde getallenmassa, ook dezelfde fre- 
quentieverdeling, hetgeen voor de praktijk noodzakelijk is. De gevonden (empirische) fre- 
quentieverdeling dient als schatting van de populatieverdeling. 

Van de frequentietabel 3.2 kunnen we nu de eerste 2 kolommen invullen. Verder moeten we 
nu alle meetwaarden indelen in de bijbehorende klassen (kolom 3). 

Tellen we de aantallen in kolom (3) ор, dan vinden we als totaal п = 50. 

In kolom (4) staan ten slotte de relatieve frequenties per klasse. Deze waarden verkrijgt men 
door het aantal meetwaarden in iedere klasse te delen door het totaal aantal meetwaarden 
van alle klassen. In ons voorbeeld dus door 50. 
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Tabel 3.3 Frequentietabel van 50 gewichtsmetingen (klassenbreedte = 4) 
(1) (2) (3) (4) 
klassengrenzen klassenmidden frequentie rel.frequentie 
79,5 - 83,5 81,5 1 0,02 
83,5 - 87,5 85,5 3 0,10 
87:9-91; 89,5 II 0,22 
91,5 -95,5 93,5 14 0,28 
95,5 - 99,5 ЭЛӘ 14 0,28 
99,5 - 103,5 [01,5 2 0,04 
103,5 - 107,5 105,5 1 0,02 
107,5 = 111,5 109,5 2 0,04 

totaal 50 100 


In tabel 3.3 zijn de relatieve frequenties in fracties aangegeven. Met andere woorden, voor 
elke klasse is het aandeel in het totaal van de waarnemingen opgegeven. Men kan de rela- 
tieve frequentie ook in procenten opgeven door de relatieve frequentie met 100 te verme- 
nigvuldigen. 

In figuur 3.4 is de frequentieverdeling van tabel 3.3 als histogram getekend. 


| | | | 
80 90 100 110 


Fig. 3.4 Histogram van 50 gewichtsmetingen (Gegevens tabel 3.3) 


Tot nu toe hebben we frequentieverdelingen besproken waarbij alle klassen dezelfde klas- 
senbreedte hebben. Dit gaat op als de uiteindelijke frequentieverdeling redelijk symmetrisch 
is. Bij erg scheve verdelingen kunnen we de gevolgde procedure niet toepassen en werken 
we met ongelijke klassenbreedtes. Hierdoor ontstaan zo weinig mogelijk lege klassen. Een 
voorbeeld hiervan is de inkomstenverdeling. Hoe hoger het inkomen, hoe minder mensen er 
zijn die dit inkomen verdienen. De inkomstenverdeling is een scheve verdeling. Het heeft in 
tabel 3.4 geen zin om het betrekkelijk geringe aantal personen met een inkomen van 60.000 
euro tot 100.000 euro te verdelen over meerdere klassen. 
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Tabel 3.4 Verdeling van de belastbare inkomens van personen (x 1000 euro) 
(1) (2) (3) (4) (5) 
klassen klassenbreedte aantal personenen rel. frequentie freq. dichtheid 

0— < 2 1 663 0,103 H 
2— < 4 2 297 0,040 128 
4— < 6 2 430 0,067 215 
6— < 10 4 1132 О,117 283 
10— < 14 4 1121 173 280 
14— < 20 6 1465 0,228 244 
20— < 28 8 763 0,119 95,4 
28— < 40 12 333 0,052 21,7 
40— < 60 20 152 0,024 7,6 
60— < 100 40 63 0,100 1,6 
100— < 500 400 30 0,005 0,1 
> 500 ? 1 0,000 ? 
totaal 6410 1,000 


Bij het tekenen van een histogram moet men er in dit geval rekening mee houden dat bij 
ongelijke klassenbreedten de hoogte van een kolom geen maat is voor het aantal inkomens 
in de betreffende klasse. Alleen de oppervlakte van een kolom is feitelijk een maat voor de 
frequentie. 

De hoogte h van een kolom bij een bepaalde klasse wordt bepaald door het quotiënt van 
het aantal meetwaarden per klasse en de bijbehorende klassenbreedte. Dit quotiënt wordt 
de frequentiedichtheid genoemd (laatste kolom tabel 3.4). Door bij ongelijke klassenbreed- 
ten de frequenties te delen door de verschillende klassenbreedten, wordt de frequentie per 
klasse gestandaardiseerd naar de eenheid van metingen. De frequentiedichtheid is dus de 
frequentie per eenheid van de beschouwde grootheid. De klassen kunnen nu beter onderling 
worden vergeleken. De hoogte van elke kolom komt overeen met de bijbehorende frequen- 
tiedichtheid. We zien dit in figuur 3.5 op basis van de gegevens van tabel 3.4. 

Hoewel de klasse 14000— < 20000 de klasse is met het hoogste aantal meetwaarden, ligt 
de top van de verdeling ongeveer bij 10000. De klasse met de hoogste frequentiedichtheid 
is de klasse 6000— < 10000. 


3.2.3 Cumulatieve frequentieverdelingen 

Het samenstellen van een frequentietabel uit een groot aantal waarnemingsuitkomsten en 
het tekenen van het histogram hebben we uitvoerig besproken. Daarbij hebben we uitslui- 
tend gewerkt met de absolute frequentie of met de relatieve frequentie per klasse. In de 
praktijk werkt men ook vaak met de cumulatieve frequenties. Aan de frequentietabel voe- 
gen we nog een kolom toe. In deze kolom zetten we het aantal meetwaarden tot en met de 
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Fig. 3:5 Frequentiedichtheden bij ongelijke klassenbreedte 


beschouwde klasse. Per opeenvolgende klasse neemt men dus de som van de frequentie van 
de betreffende klasse en de totale frequentie van alle voorgaande klassen. We spreken nu 
van de gecumuleerde (gesommeerde) frequenties. 

Als voorbeeld nemen we de gegevens van tabel 3.3, waarbij we de frequentietabel uitbreiden 
met een vijfde kolom voor de cumulatieve frequenties. 


Tabel 3.5 Frequentietabel voor de gegevens van voorbeeld 3.1 
(1) (2) (3) (4) (5) 
klassen klassenmidden frequentie rel. frequentie cumulatieve frequentie 
19,5 — 83,5 81,5 | 0,02 
83,5 — 87,5 85,5 5 0,10 
87,5 — 91,5 89,5 11 0,22 
91,5 — 95,5 93,5 14 0,28 
95,5 — 99,5 97,5 14 0,28 
99,5 —103,5 101,5 2 0,04 
103,5 1075 109,2 1 0,02 
107,5—111,5_ 109,5 2 0,04 


In de vijfde kolom zetten we voor de verschillende klassen de cumulatieve frequenties, die 
als volgt worden verkregen. De cumulatieve frequentie is het aantal meetwaarden in een 
bepaalde klasse, vermeerderd met het aantal meetwaarden in alle voorgaande klassen. 
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frequentie cumulatieve frequenties 


1 1 


5 5+1=6 

11 б+11=17 

14 14+17=31 
enzovoorts enzovoorts 


Deze gegevens kunnen we nu overbrengen naar kolom 5 van de frequentietabel. Eventueel 
kunnen we nog een extra kolom toevoegen met de relatieve cumulatieve frequenties. 


Tabel 3.6 Frequentietabel voor de gegevens van tabel 3.1, 
inclusief de cumulatieve frequenties 

(1) (2) (3) (4) (5) (6) 
klassengrenzen klassenmidden frequentie rel. freq cum.freg. rel. cum.freq. 
79,5 — 83,5 81,5 Ì 0,02 | 0,02 
83,5 — 87,5 83,9 5 0,10 6 0,12 
87,5 — 91,5 89,5 11 0,22 17 0,34 
91,5 — 95,5 93.5 14 0,28 34 0,62 
95,5 = 99,5 97.9 14 0,28 45 0,90 
99,5 — 103,5 101,5 2 0,04 47 0,94 
103,5 — 107,5 105,5 1 0,02 48 0,98 
107,5 — 111,5 109,5 й: 0,04 50 1,00 


Voor de frequentieverdeling іп tabel 3.6 geldt bijvoorbeeld dat 17 uitkomsten ееп waarde 
hebben kleiner dan de klassenbovengrens 91,5 en dat 31 uitkomsten een lagere waarde 
hebben dan de klassenbovengrens 95,5, enzovoorts. 

Willen we de cumulatieve frequentieverdeling in beeld brengen, dan gaan we daarbij als 
volgt te werk. De cumulatieve frequenties worden als punten uitgezet boven de betreffende 
klassenbovengrens en niet boven het klassenmidden. Beneden de waarde 79,5 komen geen 
uitkomsten voor, dus wordt daar een punt op de horizontale as — de nullijn — geplaatst. 
Boven de waarde 83,5 zetten we een punt bij 1, bij 91,5 een punt bij 17, enzovoorts. De 
uitgezette punten worden nu door rechte lijnstukken verbonden. 

In de praktijk zetten we echter meestal niet de absolute cumulatieve frequenties uit, maar de 
relatieve cumulatieve frequentie (meestal in procenten). In figuur 3.6 is dit uitgevoerd voor 
de gegevens van tabel 3.6. 
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Fig. 3.6 Relatieve cumulatieve frequentieverdeling in procenten 


3.2.4 Kwantielen 
Uitgaande van de relatieve cumulatieve frequentieverdeling kan men alle meetwaarden ver- 


delen in intervallen met daarin gelijke frequenties. Deze intervallen met gelijke frequenties 
worden kwantielen genoemd. Daarbij worden de volgende indelingen onderscheiden. 


A 


Het gehele interval van 0 - 100% op de verticale as verdelen in twee intervallen, ieder 
met een frequentie van 50%. Het bijbehorende, zogenaamde 50%-punt op de horizon- 
tale as wordt de mediaan (= Me) genoemd. 

Het gehele interval op de verticale as indelen in vier intervallen, ieder met een fre- 
quentie van 25% van het totaal aantal meetwaarden. Op deze wijze krijgen we op de 
horizontale as de kwartielen. Het eerste kwartiel, aangeduid met Q1, is het 25%-punt. 
Onder dit punt ligt 25% van het aantal data. Het tweede kwartiel (Q2) is het 50%-punt, 
dit betekent dat 50% van alle data onder het tweede kwartiel ligt. Q2 is dus gelijk aan 
de mediaan (Q2 = Me). Het derde kwartiel (Q3) is het 75%-punt. Boven het derde 
kwartiel Q3 ligt 25% van de verdeling. 

Wordt het totale interval op de verticale as in tien intervallen verdeeld met elk 10% 
van de meetwaarden, dan krijgt men op de horizontale as de decielen. Onder het eerste 
deciel (Dy) ligt 10% van de verdeling, onder het tweede deciel (D2) ligt 20% van de 
verdeling, enzovoorts. 

De percentielen verdelen het gehele interval op de verticale as in honderd intervallen 
met elk 1% van de meetwaarden. Het berekenen van percentielen is alleen zinvol bij 
grote aantallen waarnemingsuitkomsten. 
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Voorbeeld 2 
In figuur 3.7 is de relatieve cumulatieve frequentieverdeling getekend van de lengtever- 
deling van 60 geproduceerde asjes, met daarin ingetekend de 3 kwartielen. 
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Fig. 3:7 Kwartielen 


Het eerste kwartiel ligt dus bij het punt 73 mm (Ој = 73). Dit betekent dat 25% van de 
lengten een waarde heeft kleiner dan 73 mm. 

Men kan nu ook uit de figuur afleiden, dat 50% van de lengten een waarde heeft kleiner 
dan 80 mm (Q2 = Ме = 80) en 75% van de uitkomsten kleiner is dan 88 mm (Оз = 
88). 


SA Frequentiepolygoon 
Een frequentiepolygoon ontstaat door de (absolute of relatieve) frequentiedichtheid uit te 
zetten tegen de klassenmiddens en vervolgens deze punten onderling te verbinden door 
rechte lijnstukken. 

Zetten we de absolute waarden uit, dan verkrijgen we de absolute frequentiepolygoon. Zet- 
ten we de relatieve frequenties uit, dan spreken we van de relatieve frequentiepolygoon. 

Bij de constructie van een frequentiepolygoon is het gebruikelijk om aan beide zijden van 
het variatiegebied nog een klasse toe te voegen met frequentie nul. De breedte van deze 
klasse is gelijk aan de breedte van de naastgelegen klasse. Op deze wijze verkrijgen we 
een frequentiepolygoon die begint en eindigt op de horizontale as (zie de dikkere punten 
in figuur 3.8). In figuur 3.8 zijn frequentiepolygonen getekend voor zowel een frequen- 
tieverdeling met gelijke klassenbreedte als met ongelijke klassenbreedte. Let erop dat in 
beide gevallen de frequentiedichtheid (en niet de frequentie) op de verticale as tegen de 
klassenmiddens op de horizontale as is afgezet. 
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Fig. 3.8 Frequentiepolygoon met gelijke respectievelijk ongelijke klassenbreedten 


3.3 Kenmerken voor centrale ligging 


In de voorgaande paragrafen hebben we gezien hoe de waarnemingsuitkomsten overzich- 
telijker gemaakt kunnen worden door het maken van tabellen en grafieken. Voor verdere 
statistische analyse van de waarnemingsuitkomsten is het nuttig om per variabele de ge- 
gevens samen te vatten in frequentietabellen en histogrammen. Maar meestal wil men de 
uitkomsten per variabele nog beknopter beschrijven en de uitkomsten karakteriseren door 
één of meer kengetallen (bij steekproeven) of parameters (bij populaties). De kentallen van 
een steekproef zijn, mits de steekproef representatief en aselect is, een goede benadering 
(schatting) van de parameters van de populatie waaruit de steekproef afkomstig is. 

We onderscheiden kengetallen die een maatstaf zijn voor de ligging van de waarnemings- 
uitkomsten en kengetallen die de mate van spreiding van de waarnemingsuitkomsten vast- 
leggen. Als eerste groep van kengetallen, bespreken we de kentallen die iets zeggen over de 
(centrale) ligging van de waarnemingsuitkomsten. We zullen met een voorbeeld beginnen. 


Voorbeeld 3 

Bij de ingangscontrole van een grondstof voor een productieproces bepaalt men het 
vastestofgehalte van de grondstof. Daartoe wordt uit de aangevoerde grondstof een 
steekproef van 10 monsters genomen, waarvan het vastestof gehalte wordt bepaald. Меп 
vindt de volgende waarden: 

49,3 49,0 51,0 49,7 50,5 50,1 49,5 50,1 50,7 50,1 
Bij het bestuderen van deze 10 uitkomsten, ziet men dat de waarden dicht bij elkaar 
liggen. De waarden liggen gegroepeerd om een centrale waarde van ongeveer 50. 


Centrale waarden of centrumwaarden spelen een belangrijke rol bij het karakteriseren van 
meetuitkomsten en worden in de praktijk vrij algemeen gebruikt. 

In deze paragraaf worden drie centrale waarden (= kentallen/parameters voor de ligging) 
behandeld, die in de praktijk het meeste worden toegepast, namelijk: 

— het rekenkundig gemiddelde, meestal kortweg gemiddelde genoemd; 

— de mediaan; 

— de modus. 
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De centrale waarden of centrummaten geven een maat voor het midden of centrum van de 
verdeling van de meetuitkomsten. De bekendste centrummaat is het rekenkundig gemid- 
delde, maar ook de modus en mediaan worden veel gebruikt. Zij duiden beide aan waar de 
waarnemingsuitkomsten zich concentreren. 


3.3.1 Het rekenkundig gemiddelde 

In de statistiek is het (rekenkundig) gemiddelde een belangrijk getal, maar ook in de dage- 
lijkse omgang wordt het regelmatig gebruikt. Voor de schrijfwijze van het rekenkundig 
gemiddelde maakt men onderscheid tussen de beschrijving van de populatie en het vast- 
leggen van een steekproefresultaat. Het rekenkundig gemiddelde van een populatie wordt 
genoteerd met de griekse letter u (spreek uit: mu). 


Opmerking 
De parameters van een populatie worden meestal met een Griekse letter geschreven, dit 
ter onderscheid van de kentallen van een steekproef. 


Zijn de steekproefuitkomsten van n stuks weergegeven door de letters х, хо, …, Xn, dan 
wordt het rekenkundig gemiddelde van de steekproef (= steekproefgemiddelde) weergege- 
уеп door het symbool x (spreek uit: ‘x-streep’). 


Definitie 
Zijn x1, X2, … ху de N waarnemingsuitkomsten van een populatie, dan 15 het rekenkun- 
dig gemiddelde van die populatie: 


N 
Ж; 


[==] 


к= е кн 3.2 
ш N (3.2) 

Definitie 

Zijn x1, X2, …, Xn de n waarnemingsuitkomsten van een steekproef, dan is het steek- 

proefgemiddelde: 


H 
S 


i=] 


x = — (3.3) 
n 
In voorbeeld 3 is het steekproefgemiddelde: \ 
— 49,3 +49,0 +51,0 + 49,7 +50,5 + 50,1 + 49,5 + 50,1 + 50,7 + 50,1 
X = —————————— 
10 
500 
= = = 500 


10 
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Voorbeeld 4 
Van 25 personen verdienen er vier 450 euro, twee 950 euro, tien 265 euro, drie 350 euro 
en zes personen verdienen 311 euro. Wat is het gemiddelde inkomen? 


Oplossing 


ҳе is duidelijk dat we in dit geval ееп snellere berekening krijgen door te rekenen met 
frequenties en niet door alle 25 uitkomsten op te tellen. 


Dus: 4.450 = 1800 
2. 950 = 1900 
10 - 265 = 2650 
3 = 350 = 1050 
б: 311 = 1866 
У: Xr == 9266 


i=] 
Xi 
2. 9266 
= —— = 370.64 euro 
n 25 





E == 


Het rekenkundig gemiddelde, op de wijze van voorbeeld 4 verkregen, wordt het gewogen 
(rekenkundig) gemiddelde genoemd. 

De bedragen worden vermenigvuldigd, of gewogen met de aantallen. De aantallen zijn de 
weegfactoren. 


Definitie 

Wanneer de n waarnemingsuitkomsten van een steekproef zijn ondergebracht in fre- 
quenties fg (=aantallen) per uitkomst en er zijn К verschillende uitkomsten хк 
(К = 1,2, …, K), dan geldt voor het steekproefgemiddelde: 


K 
A. ba 
Bea (3.4) 
п 

Het gemiddelde van ееп frequentieverdeling 
Een toepassing van bovenstaande definitie vindt men bij frequentieverdelingen. Eerst wor- 
den alle n data van een steekproef op de juiste wijze in klassen verdeeld. Het gemiddelde 
van de steekproef kan vervolgens benaderd worden door voor de weegfactoren in formule 
(3.4) de frequenties van de klassen (fx) te nemen. Voor хк wordt het klassenmidden mg van 
de k-de klasse genomen. Dus 


K 
D Dm 
к=] 


n 


Ж == 
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Opdracht 

Bij de berekening van het gemiddelde van een frequentieverdeling op bovengenoemde wijze 
wordt ervan uitgegaan dat de klassenmiddens het gemiddelde zijn van de waarnemingsuit- 
komsten in de betreffende klasse. Op welke veronderstelling is deze aanname gebaseerd”? 


Het rekenkundig gemiddelde van een steekproef is, mits de steekproef representatief is, een 
goede schatting van het rekenkundig gemiddelde van de populatie waaruit die steekproef 
afkomstig is. Hoe goed deze schatting is wordt vastgelegd in een zogenaamde betrouwbaar- 
heidsinterval. Hierop komen we in een volgend hoofdstuk (hoofdstuk 8) terug. 


3.3.2 De mediaan 

Met een andere centrummaat hebben we al kennisgemaakt, namelijk de mediaan (= Me). De 
mediaan verdeelt de waarnemingsreeks in twee intervallen, waarbij 50% van de uitkomsten 
een waarde heeft die kleiner is dan de mediaan en 50% van de uitkomsten een waarde heeft 
die groter is dan de mediaan. 

De mediaan kan ook als volgt worden gedefinieerd: 


Definitie 

Als de meetuitkomsten van een waarnemingsreeks gerangschikt worden naar volgorde 
van grootte, dan is de mediaan bij een oneven aantal waarnemingen gelijk aan de mid- 
delste waarde van de reeks. 

Bij een even aantal waarnemingen is de mediaan gelijk aan het rekenkundig gemiddelde 
van de twee middelste waarden. 


Opmerking 

Een reeks van waarnemingsuitkomsten, geschreven in volgorde van meting, noteren we 
als: Лү. ND. ЖЯ. fie, 

Als deze reeks in volgorde van grootte wordt gerangschikt, dan schrijven we dit als: 
Х(1), А02)» X3)» +++, (л). | 
Hierin is xg) de laagste meetuitkomst en x(n) de hoogste meetuitkomst. \ 


Voorbeeld 5 

Een steekproef van 7 meetwaarden geeft de volgende uitkomsten: 3, 4, 6, 9, 1, 4, 9. 

De mediaan van deze meetuitkomsten bepalen we door de waarden eerst op volgorde 
van grootte te sorteren: 


KD) XD XG) Zon A5) XO) XO) 


1 3 4 4 6 9 9 


Hieruit volgt dat de middelste waarnemingsuitkomst Me = 4 
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Voorbeeld 6 
Heeft men de volgende 8 meetuitkomsten: 28, 21, 22, 25, 26, 28, 22, 24. 
Na sorteren op volgorde van grootte: 


xd) SCH A му Му KD SCH AB) 


21 22 22 24 25 26 28 28 


24 + 25 
Li ЖИ Тү. 





volgt: Ме = 


3.3.3 De modus | 
Ten slotte hebben we nog ееп ventrale maat: de modus. 


Definitie 

De modus (Engels: mode = Mo) is die waarde van de waarnemingsuitkomsten, die het 
meest voorkomt. Als de waarnemingsuitkomsten zijn ondergebracht in een frequentie- 
verdeling, is de modus het klassenmidden van de klasse met de hoogste frequentiedicht- 
heid. De desbetreffende klasse wordt de modale klasse genoemd. 


Bij een frequentieverdeling met gelijke klassenbreedtes is de klasse met de hoogste frequen- 
tie de modale klasse. Bij frequentieverdelingen met ongelijke klassenbreedtes is de modale 
klasse de klasse met de hoogste frequentiedichtheid, dus de frequentie van die klasse ge- 
deeld door de klassenbreedte. De modus correspondeert met de top van de verdeling. 

Het bekendste voorbeeld van de modus als centrale waarde is het ‘modale inkomen’. Het 
modale inkomen is de salarisklasse met de meeste inkomens. 

In tabel 3.3 is het wat moeilijk om een modale klasse aan te wijzen, daar twee klassen de- 
zelfde frequentie hebben, in dit geval kan men als modus de waarde 95,5 euro nemen. Bij 
tabel 3.4 zijn de klassenbreedten niet gelijk en dan is de klasse met de hoogste frequentie- 
dichtheid de modale klasse. Dus de klasse 6000 - <10000 (euro). Het modale inkomen is 
8000 euro, namelijk het klassenmidden van deze klasse. 


3.3.4 De vergelijking van de verschillende centrumwaarden 

Het verband en het verschil tussen het rekenkundig gemiddelde (= u) de mediaan (= Me) 
en de modus (= Mo) van een populatie zien we het duidelijkst in de verschillende verde- 
lingsvormen. De vorm van een verdeling wordt meestal voorgesteld door de zogenaamde 
ideale kromme. Hiermee wordt de grafiek bedoeld die de toppen van het frequentiepolygoon 
op continue wijze met elkaar verbindt. 
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Symmetrische verdelingen: 














u=Me=Mo 


klokvormige of normale verdeling rechthoekige of uniforme verdeling 


Fig. 3.9a Ideale krommen van symmetrische verdelingen 


Bij ééntoppige symmetrische verdelingen vallen het rekenkundig gemiddelde, de me- 
diaan en de modus samen. Een normale verdeling heeft de vorm van een (kerk)klok. 
We zullen deze verdeling zeer vaak tegenkomen. 


Opdracht 
Bedenk drie voorbeelden van een normale verdeling. 


Bij een rechthoekige verdeling is er geen sprake van-een modus, omdat de mogelijke 
uitkomsten alle met dezelfde frequentie voorkomen. Voorbeeld van een rechthoekige 
verdeling is het aantal ogen bij het gooien met een zuivere (dat wil zeggen ‘eerlijke”) 
dobbelsteen. Als de dobbelsteen zuiver is, zal elke waarnemingsuitkomst (1, 2, 3, 4, 5, 
6) ongeveer even vaak voorkomen. 


Scheve (asymmetrische) verdelingen: 
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positief scheve verdeling negatief scheve verdeling 


Fig. 3.9b Ideale kromme van asymmetrische verdelingen 


— Voor een positief scheve verdeling (staart naar rechts) geldt: Мо < Ме < u 
— Voor een negatief scheve verdeling (staart naar links) geldt: и < Me < Mo 


Een voorbeeld van een positief scheve verdeling is de inkomensverdeling in Nederland. 
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Opdracht 


Bedenk een voorbeeld van een negatief scheve verdeling 


c. Meertoppige verdelingen: 











AN Pian 
Т М, М, 
u-vormige verdeling tweetoppige of bimodale verdeling 


Fig. 3.9c Meertoppige verdelingen 


Bij een u-vormige verdeling is het zinloos om één modus weer te geven. Een voorbeeld 
van een u-vormige verdeling is de bewolkingsgraad (in procenten): helemaal bewolkt 
en helemaal onbewolkt komen in Nederland vaker voor dan bijvoorbeeld half bewolkt. 
Bij een tweetoppige (bimodale) of meertoppige verdeling hebben we in principe twee 
‘modale waarden’ en het is zinloos om over een gemiddelde en een mediaan te spre- 
ken. Bimodale verdelingen worden gevonden wanneer een populatie uit twee of meer 
deelpopulaties met verschillende gemiddelden bestaat, of wanneer bijvoorbeeld twee 
producties van verschillende machines worden samengevoegd. 


In het algemeen kan men stellen dat modus en mediaan niet gevoelig zijn voor uitschieters 
(extreme waarnemingsuitkomsten), dit in tegenstelling tot het rekenkundig gemiddelde. 


3.3.5 Verschuiven en vermenigvuldigen 

Ten slotte merken we nog het volgende over de in deze paragraaf gedefinieerde centrumma- 
ten op: wanneer bij alle waarnemingsuitkomsten van een steekproef (of populatie) hetzelfde 
getal wordt opgeteld, verschuiven gemiddelde, mediaan en modus over dezelfde afstand 
naar rechts. Hiermee wordt nog eens duidelijk dat de genoemde kentallen de ligging van 
de verdeling bepalen. De gehele verdeling verschuift als het ware. Dezelfde eigenschap 
geldt voor aftrekken. Wanneer van alle data hetzelfde getal wordt afgetrokken, verschuiven 
gemiddelde, mediaan en modus over dezelfde afstand naar links. 

Wanneer alle waarnemingsuitkomsten met hetzelfde getal (> 1) vermenigvuldigd worden, 
worden gemiddelde, mediaan en modus eveneens met dat getal vermenigvuldigd. Dit be- 
tekent dat het histogram van de verdeling wordt opgerekt: de staven worden breder. Een 
soortgelijke eigenschap geldt ook wanneer alle data worden gedeeld door hetzelfde getal. 
Wanneer dit getal groter is dan 1, krimpt het histogram: de staven worden smaller. 

We kunnen deze eigenschappen in de volgende stelling vastleggen: 
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Stelling 1 
Wanneer у; = 





voor alle waarden van i (i = 1, 2, 3, ...n), geldt: 


iddelde van x;) — A 
1. gemiddelde van y; = (шешипеше vansi} — A 


B 
Ме(х;) — A 
2. Mimi ke Á — 
B 
Mo(x;) — А 
3. Mogi = — 
B 
Voorbeeld 7 
Het gemiddelde van 25 toetscijfers bleek 5,6 te bedragen, de mediaan was 6 en de modus 
3; 


De docent besloot alle cijfers met een punt ор te hogen. Het gemiddelde wordt 6,6, de 
mediaan 7 en de modus 6. 

Wanneer de docent alle cijfers met een factor 1,1 vermenigvuldigd had, was het gemid- 
delde 1,1 x 5,6 = 6,16 geworden. De mediaan zou 6,6 geworden zijn (afgerond een 7) 
en de modus 5,5 (afgerond een 6). 


3.4 Kenmerken van spreiding 


In tabel 3.7 zijn de gewichten weergegeven van 10 zakken aardappels, 5 afkomstig van een 
steekproef uit een partij A en 5 afkomstig van een steekproef uit een partij B. 


Tabel 3.7 De gewichten van twee steekproeven uit een partij А en een partij B (in kg) 
partij A partij B 
51,3 — 49,0 - 51,0 - 49,7 - 50,5 50,1 - 50,5 - 50,1 - 50,7 - 50,1 


De gemiddelden van beide steekproeven zijn gelijk хд = хв = 50,3 kg, toch verschillen 
beide steekproeven wezenlijk. De waarnemingsuitkomsten van steekproef A vertonen een 
grotere spreiding ten opzichte van het gemiddelde dan de uitkomsten van steekproef B. Om 
een juiste en volledige indruk van beide reeksen te krijgen, is het noodzakelijk om naast een 
centrummaat, ook een maat voor de spreiding aan te geven. 


3.4.1 Spreidingsbreedte 

De eenvoudigste maat om een spreiding aan te geven, is de spreidingsbreedte К. Dit kenge- 
tal is al eerder aan de orde geweest in paragraaf 3.2.2, bij het opmaken van een frequentie- 
verdeling. 


Definitie 
De spreidingsbreedte R (Engels: range) is het verschil tussen de hoogste en de laagste 
uitkomst van een reeks waarnemingsuitkomsten. 
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Voorbeeld 8 

De spreidingsbreedten van partij A en van partij B uit tabel 3.7 zijn respectievelijk 

Ra = 51,3 — 49,0 = 2,3 kg en Rpg = 50,7 — 50,1 = 0,6 kg 

De spreiding van de uitkomsten in de steekproef uit partij A is veel groter, dan de sprei- 
ding in de steekproef uit partij B. 


Hoewel zeer eenvoudig uit te rekenen, heeft de spreidingsbreedte een belangrijk nadeel: 
Voor de berekening van de spreidingsbreedte worden alleen de twee uiterste waarden ge- 
bruikt. Dit heeft tot gevolg dat niet alle beschikbare informatie wordt benut. De tussenlig- 
gende waarden worden niet gebruikt. Bovendien is de spreidingsbreedte zeer gevoelig voor 
extreem grote of kleine waarden. 

De spreidingsmaten waarvoor bovengenoemde nadelen niet gelden, zijn de variantie en de 
standaardafwijking. | 


3.4.2 Variantie 

In figuur 3.10 zijn de uitkomsten van de steekproef uit partij A (zie tabel 3.7) uitgezet. 
We willen nu niet alleen gebruikmaken van de twee uiterste waarden, maar ook van de 
tussenliggende waarden. 





gewicht 
k 
(kg) en А 
| 51 | А 
e 
50,5 | 
KBO EE E ИА ennn eege R = 2,3 kg 
50 | | 
| 0 
49,5 | 
49 bemensen l 
1 2 3 4 5 


————› steekproefnr. 


Fig. 3.10 Spreiding gewichten uit partij A 
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We gaan van elke uitkomst de afwijking ten opzichte уап het gemiddelde bepalen (x; — х). 


We krijgen dan: 


Хү 2751,9 — 2013 == 1,0 
en — == 49,0 = 5303 == =1,3 
Ўз =X = 31.0 — 50,3 = 0,7 
ха XK = 49,7 — 50,3 = —0,6 
Хе = 22 30,3 305 == 0,0 


5 
S Ce — X) = 0, 


і==1 
Dit is geen toeval want 


п 
2, Xi 


n ; 
i=] 


n n 
У (х= х) = -nae Уп: 





п 


= A. 


Gel 


n 
Ar SS eck 


i=l 


De som van de afwijkingen ten opzichte van het gemiddelde is dus per definitie gelijk aan 


nul. 


Aan de som van de afwijkingen ten opzichte van x hebben we als spreidingsmaat blijkbaar 


niets. Door de afwijkingen ten opzichte van x te kwadrateren en daarna te sommeren, on- 


dervangen we dit probleem. De som van de kwadratische afwijkingen is niet gelijk aan nul 
(behalve in het uitzonderlijke geval dat alle waarnemingsuitkomsten hetzelfde zijn). Hier- 
door is de gemiddelde kwadratische afwijking ten opzichte van x te bepalen. En daarmee 


hebben we de variantie gedefinieerd. 


Definitie 


De variantie is de gemiddelde kwadratische afwijking ten opzichte van het gemiddelde. 


In formulevorm: 


n 
3 (xi = ш)? 


2. i=l 


п 


2 


Notatie: с“ = variantie van een populatie 


Formule (3.5) geldt slechts in die gevallen waarbij men de afwijkingen ten opzichte van het 


populatiegemiddelde u bepaalt. Heeft men echter eerst het steekproefgemiddelde x moeten 


berekenen uit de waarnemingsreeks, dan verandert de berekening in zoverre, dat men niet 


deelt door л, maar door n — 1. 








Het weergeven en karakteriseren van data hoofdstuk 3 41 





Voor de variantie van een steekproef geldt dus: 


hi – х)? 


Р Е КЕ (3.6) 
п — 1 


Deze correctie kan men als volgt verklaren. Door eerst х te berekenen, zijn niet alle waarden 


(х; — х) onafhankelijk. Er zijn n — 1 van de (х; — x)-waarden vrij te kiezen, maar dan ligt 
п 


DE 


i=] 


n 





de n-de waarde vast, omdat de som gelijk aan 0 moet zijn. Dit komt omdat door х = 
de som van de meetwaarden is vastgelegd. 
Men spreekt in dit verband van n — 1 vrijheidsgraden voor de steekproefvariantie. Het 
begrip vrijheidsgraad komt men in de statistiek veelvuldig tegen. Op dit moment gaan we 
er niet verder op in. 
Is het populatiegemiddelde u bekend, dan hoeven we niet eerst х te bepalen. De (x; — џш)- 
waarden in een aselecte steekproef zijn dan onderling onafhankelijk. Voor de berekening 
van de variantie heeft men dan ook n vrijheidsgraden. 
In de praktijk echter is in de meeste gevallen и onbekend en zal men de steekproef variantie 
moeten bepalen. 

n 

Уу`(х—х)? 


у i=l а 
Doordat in de formule s? = —=————— eerst х moet worden bepaald, kunnen ег afron- 


n— 
dingsfouten ontstaan. Via een algebraïsche afleiding is de formule in een beter te hanteren 


vorm te gieten. 
Te bewijzen is dat de teller voor de formule voor de variantie geschreven kan worden als: 


„2 il (3.7) 

































42 hoofdstuk Het weergeven en karakteriseren van data 





Voorbeeld 9 
De uitkomsten van een steekproef zijn 7, 9, 7, 11, 6. De variantie van deze vijf uitkom- 
sten wordt als volgt bepaald: 





Xi х? 
7 49 
9 81 
Z 49 
11 121 
6 36 
5 n o 
У =: 40) х” = 336 
El i=l 
2 
X 40? 
82 п d = 4,00 


Opmerking 

Op een (grafische) zakrekenmachine zijn meestal twee toetsen voor de variantie (of de 
wortel daaruit, zie hieronder) aanwezig. In het ene geval wordt de formule voor een po- 
pulatie gebruikt, in het andere geval die van een steekproef. Of zulke toetsen in de prak- 
tijk bruikbaar zijn, hangt af van de mogelijkheid te controleren of de juiste meetwaarden 
zijn ingevoerd. Bij een computerprogramma zoals EXCEL bestaat die mogelijkheid ui- 
teraard wel. 


Opmerking 

Net als bij de berekening van het gemiddelde kan de variantie van een steekproef ge- 
schat worden door eerst een frequentieverdeling te maken. Daarna wordt het gemiddelde 
geschat op basis уап de frequentieverdeling (zie de opmerking na formule (3.4)). Ver- 
volgens worden in formule (3.6) of formule (3.7) alle waarnemingsuitkomsten x; van 
een bepaalde klasse ‘samengevat’ door het klassenmidden mj van die klasse, terwijl als 
weegfactor de frequentie van die klasse gebruikt wordt. Formule (3.6) gaat op deze wijze 
over in: 


K 
У (тк — х)? 
2 k=] 
sss 
п — ] 
waarbij K het aantal klassen is, mg het klassenmidden van de k-de klasse еп fp de 


frequentie van die klasse. 


3.4.3 De standaardafwijking 
Het nadeel van de variantie als spreidingsmaat is dat de variantie gedefinieerd is als de som 
van het kwadraat van de afwijkingen, waardoor ook de eenheid, waarin de variantie wordt 
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uitgedrukt, kwadratisch is. Deze eenheid is moeilijk te interpreteren. Vandaar dat we vaak 
de wortel uit de variantie als spreidingskental nemen. 


Definitie 
De standaardafwijking (Engels: standarddeviation) is de wortel uit de variantie, dus 
voor de steekproef variantie geldt: 


sl (3.8) 


De berekening van de standaardafwijking gaat via de berekening van de variantie, waarna 
de wortel van de variantie wordt genomen. Voor een populatie geldt uiteraard hetzelfde, 
alleen is de notatie anders: o. 


3.4.4 De variatiecoëfficiënt 

De tot nu toe besproken spreidingsmaten zijn zogenaamde absolute spreidingsmaten. Het 
nadeel van de variantie en de standaardafwijking als spreidingsmaat is dat ze gevoelig zijn 
voor de dimensie van de meetuitkomsten. Als bijvoorbeeld van meters op centimeters wordt 
overgegaan, wordt de standaardafwijking 100 keer zo groot en de variantie zelfs 10.000 
keer. Daarom wordt in de praktijk vaak nog een andere spreidingsmaat gebruikt, namelijk 
de variatiecoëfficiënt (= у voor een populatie en с voor een steekproef). 


Definitie 
De variatiecoëfficiënt (y voor een populatie en c voor een steekproef) is het quotiënt van 
de standaardafwijking en het gemiddelde: 


o , e 5 
У = — respectievelijk с = — (3:9) 
ш X 
De variatiecoëfficiënt is een dimensieloze spreidingsmaat. Dit betekent dat de grootte van 
de variatiecoëfficiënt niet afhangt van de dimensie van de meeteenheid. Meestal wordt de 


o 5 
variatiecoëfficiënt dan ook in procenten weergegeven: у = — х 100% of c = =x 100% 
X 


Uit de gegeven definitie blijkt dat de standaardafwijking van een reeks waarnemingsuitkom- 
sten, door middel van de variatiecoëfficiënt, uitgedrukt wordt in een fractie (of in procenten) 
van het rekenkundig gemiddelde. 


3.4.5 Verschuiven en vermenigvuldigen (2) 

Wanneer bij alle waarnemingsuitkomsten van een populatie of steekproef hetzelfde getal 
wordt opgeteld, heeft dit geen invloed op de spreidingsmaatstaven variantie, standaardaf- 
wijking en range, maar wel op de variatiecoëfficiënt. Verschuiven van de verdeling (ook 
naar links, bij aftrekken) heeft alleen invloed op de ligging, niet op de mate van spreiding. 
Wanneer de waarnemingsuitkomsten alle met hetzelfde getal vermenigvuldigd (of door dat 
getal gedeeld: delen is het omgekeerde van vermenigvuldigen!) worden, heeft dit wel in- 
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vloed op de spreidingsmaatstaven. Op de variantie is het effect sterker dan op de standaard- 
afwijking. De variatiecoëfficiënt verandert niet (waarom niet?). We leggen deze eigenschap 
vast in de volgende stelling: 


Stelling 2 | 
Wanneer y; = Ze voor alle waarden van i (i = 1, 2, 3, ...n), geldt: 


(range van xi) 
1. range van y; = -———— 


а: standaardaf wijking(x; ) 
2. _standaardafwijking(y;) = ——2—— 


variantie(x; ) 


3. variantie(y;) = B? 


3.5 De verwachtingswaarde 


Bij kansverdelingen, die we later zullen bespreken, gebruikt men voor het rekenkundig ge- 
middelde van de populatie (of verdeling) vaak de uitdrukking verwachtingswaarde of kort- 
weg verwachting van de verdeling. De verwachtingswaarde of verwachting (Engels: expec- 
tation) hangt samen met de experimentele wet van de grote aantallen. Als men oneindig 
vaak een experiment herhaalt, nadert de uitkomst van zo’n experiment naar een constante 
waarde. Zo zal bij het oneindig vaak opgooien van een munt, men gemiddeld genomen in 
50% van de gevallen ‘kop’ boven krijgen en in 50% van de gevallen ‘munt’. We zeggen nu 
dat de verwachtingswaarde van "bet aantal keren kop’ bij het werpen met een munt 0.5 of 
50% 15. Dit wordt genoteerd als: E(‘kop’) = 0.5 (de letter Е is afgeleid van expectation). 
Zo is de verwachtingswaarde van het aantal keren dat zes wordt gegooid bij het werpen met 
een dobbelsteen: E(‘zes’) = d 

In zijn algemeenheid kan men zeggen: 

Wanneer een experiment n keer wordt uitgevoerd en X het gemeten kenmerk (bijvoorbeeld 
de lengte) is еп x; (1 = 1, ..., n) zijn de bij X behorende uitkomsten van n experimenten, 
geldt voor de verwachtingswaarde (= rekenkundig gemiddelde) van X: 


SÉ 
E(X) = Gem = u (3.10) 


e e ? р, Б ee 
In analogie hiermee kunnen we voor Х*^ (met waarde х, voor i = 1, …, n) schrijven: 


n 7 
КЭ ч 


i=] 
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breng we de variantie van kenmerk X aan met var (X), dan kan men afleiden: 
var(X) = E(X?) — LEUKEN (3.12) 


De formules voor de verwachtingswaarde (dan wel het gemiddelde) en de variantie van een 
verdeling zullen we later in dit boek nog verschillende keren tegenkomen. 


Opgaven 


1. Als gemiddelde van 5 metingen vond men х = 23,0. Toen men later de spreiding wilde 
berekenen, waren er slechts 4 van de 5 meetwaarden terug te vinden: 
15,0 - 27,0 - 19,0 - 35,0 - ? 
a. Bereken de ontbrekende waarde. 
b. Bereken vervolgens de standaardafwijking. 


2. Van een vulmachine voor poedervormige producten worden van de lopende band ase- 
lect 10 pakjes gewogen. De volgende gewichten zijn gevonden: 
52,3 - 53,6 - 51,5 - 53,8 - 51,2 = 50,9 - 55,0 - 52,4 = 52,3- 55,9 
a. Bereken de mediaan еп het gemiddelde. 
b. Bereken de spreidingsbreedte en de standaardaf wijking. 
c. Bereken de variatiecoëfficiënt. 


3. Op 12 achtereenvolgende dagen wordt de temperatuur van het koelwater van een che- 
misch proces gemeten. De gevonden waarden zijn: 
33 - 24 - 39 - 48 - 26 - 35 - 38 - 54 - 23 - 34 - 29 еп 37 
a. Bereken de gemiddelde temperatuur en de spreiding (standaardafwijking); 
b. Bereken de variatiecoëfficiënt. 


4. Van een proces wordt de temperatuur gemeten in graden Celsius (°C). De gegevens 
over een maand gezien gaven het volgende beeld: 


ZS == DS = 233 


Men wil de temperatuur uitdrukken in graden Fahrenheit (°F). Bereken пи de gemid- 
delde temperatuur, de standaardafwijking en de variatiecoëfficiënt in graden Fahren- 
heit. 

CF = 2°C + 32). 


5. Van ееп verzameling waarnemingsuitkomsten is het gemiddelde gelijk aan х = 25 en 
de standaardafwijking gelijk aan s = 2,4. 
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Bereken het gemiddelde en de standaardafwijking van de verzameling wanneer men 
iedere waarnemingsuitkomst: 

met 2,5 vermindert. m 

door 3 deelt. 

met 2,5 vermeerdert. 

met 3 vermenigvuldigt. 

eerst met 2,5 vermindert en daarna door 3 deelt. 

eerst door 3 deelt en daarna met 2,5 vermindert. 

eerst met 2,5 vermeerdert en daarna met 3 vermenigvuldigt. 

eerst met 3 vermenigvuldigt en daarna met 2,5 vermeerdert. 


a рр 


In onderstaande tabel zijn de gegevens opgenomen van de dagelijkse zwaveloxyde- 
uitstoot van een bepaalde energiecentrale. De gegevens hebben betrekking ор een pe- 4 
riode van drie maanden (8502 in tonnen). 





Stel van deze gegevens een frequentietabel op en teken het bijbehorende histogram. 
Bereken vervolgens het gemiddelde en de standaardafwijking uit de frequentietabel. 


Bij een radarcontrole door de gemeentepolitie te Alkmaar werden op een bepaald punt 
binnen de bebouwde kom in een uur tijd achtereenvolgens de volgende snelheden (in 
km/u) gemeten: 





a. Bepaal de modus en bereken het gemiddelde en de mediaan van de ongegroepeerde 
waarnemingsuitkomsten. 

b. Bepaal hun range. 

с. Stel een frequentietabel samen en teken het bijbehorende histogram. 

d. Bepaal de modus en bereken het gemiddelde en de mediaan van de frequentiever- 

deling. 








Het weergeven en karakteriseren van data hoofdstuk 3 47 








e. Geef commentaar op de drie hetzij sub a hetzij sub d berekende maatstaven voor 
ligging. 


Metalen pennen bestemd voor de montage in buizen, worden geëtst in een etsvloeistof. 
Bij het onderdompelen in de etsvloeistof worden de pennen ingeklemd in een houder. 
Na het etsen wordt het blanke (niet geëtste) uiteinde gemeten (lengte in mm). De 
meetresultaten zijn als volgt: 





Stel van deze gegevens een frequentietabel samen en teken het bijbehorende histogram. 
Bereken vervolgens uit de frequentietabel het gemiddelde en de standaardafwijking 
door de klassenmiddens als representanten te nemen van alle waarnemingsuitkomsten 
in de betreffende klasse en de frequentie van de bijbehorende klasse als weegfactoren 
te nemen in de formules voor gemiddelde en standaardafwijking. 


In de volgende tabel zijn de gegevens opgenomen van het aantal medewerkers van een 
bedrijf dat op een bepaalde dag afwezig is. De gegevens berusten op waarnemingen 
over een periode van 50 dagen. 





a. Stel een frequentietabel op, ook de kolom met de relatieve frequenties, alsook de 
cumulatieve frequenties. 

b. Teken de frequentiepolygoon van de relatieve cumulatieve frequenties. 

c. Bereken uit de frequentietabel het gemiddelde aantal afwezigen per dag. Bepaal 
eveneens de standaardafwijking van het aantal afwezigen per dag. 

d. Bepaal de mediaan van het aantal afwezigen per dag en de modus. 








Kansrekening 





4.1 Inleiding 


In de vorige hoofdstukken hebben we kennisgemaakt met een aantal begrippen uit de be- 
schrijvende statistiek, namelijk het verzamelen, het rangschikken en het karakteriseren van 
data. Wanneer we ons gaan bezighouden met de verdere analyse van deze data met de be- 
doeling daaruit verantwoorde conclusies te kunnen trekken, begeven we ons op het terrein 
van de toegepaste statistiek. De toegepaste statistiek is gebaseerd op de kansrekening die 
dan gezien kan worden als de verbindende schakel tussen de beschrijvende statistiek en de 
toegepaste statistiek. We zullen daarom in dit hoofdstuk aandacht aan deze kansrekening 
besteden. Daarbij zullen we ons beperken tot de belangrijkste regels die nodig zijn om 
conclusies, die in de komende hoofdstukken getrokken zullen worden, te kunnen begrij- 
pen. Maar eerst moeten we het begrip ‘kans’ definiëren. Voor het begrip ‘kans’ bestaan 
verschillende definities. 


4.2 De verschillende definities van het begrip kans 


Men zou kunnen zeggen dat er verschillende invalshoeken zijn om het begrip ‘kans’ te 
definiëren. We zullen dit illustreren met enkele voorbeelden: 


Voorbeeld 1 
Er worden twee zuivere (= ‘eerlijke’) dobbelstenen tegelijk geworpen. Wat is de kans 
dat in totaal 7 ogen gegooid worden? 


Oplossing 

In dit voorbeeld kan de klassieke definitie van het begrip ‘kans’ worden toegepast. We 
kunnen de mogelijke uitkomsten van het experiment met hun kans van optreden voor- 
spellen, omdat we het gedrag van een dobbelsteen kennen. Een dobbelsteen heeft zes 
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zijvlakken, die alle zes met even grote kans boven komen. Bij een worp met twee dob- 
belstenen tegelijk zijn er dus 6 x 6 = 36 mogelijke totaaluitkomsten (zie de tabel) met elk 
dezelfde kans van optreden. In onderstaande tabel staat van alle mogelijke uitkomsten 
van de worp met twee dobbelstenen hun som (s). 


1 2 3 4 5 6 
1 zel geh ged гед EH, к= d 
а Sm Ze Seet ds $ == Ү FER. 
d #==% ms Bes pes? ў = 9 ў = 9 
4 Е ges Set Е Se glp 
ZS zel g= укы ge Ss li ess 
б Sei Sm Ss Ss Rit fil ges 12 


Het totale aantal ogen is 7 bij de combinaties (3, 4), (4, 3), (5, 2), (2, 5), (1, 6) en (6, 1). 
Er zijn dus 6 van de 36 combinaties die voldoen aan het kenmerk: ‘het totaal aantal ogen 
is 7’. Deze 6 combinaties noemt men ‘gunstig’ voor het optreden van de gebeurtenis met 
dat kenmerk. De kans dat het ogentotaal 7 is, is gelijk aan het aantal gunstige uitkomsten 
gedeeld door het aantal mogelijke uitkomsten, oftewel = = d Deze kans kunnen we 
dus uitrekenen zonder het experiment te hoeven uitvoeren. 


4.2.1 De klassieke kansdefinitie 
De klassieke definitie die we in bovenstaand voorbeeld hebben toegepast, luidt in algemene 
vorm: 















Definitie 

Stel een experiment kent M mogelijke, even waarschijnlijke uitkomsten. De kans op 
het optreden van een bepaalde gebeurtenis (X) is gelijk aan het aantal uitkomsten G(X) 
(G van ‘gunstig’) waarbij die gebeurtenis optreedt, gedeeld door het aantal mogelijke 
uitkomsten (М): 


Р(Х) = = (4.1) 


Populair kunnen we de klassieke kansdefinitie (toegeschreven aan de wiskundige Pierre 


Simon Laplace; 1749-1827) als volgt formuleren: 








бл aantal gunste gevallen (4.2) 
aantal mogelijke gevallen 


De klassieke definitie van het begrip kans is zeer eenvoudig te hanteren. En waar mogelijk 





zullen we deze definitie ook gebruiken. 
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4.2.2 Kans als relatieve frequentie 
Een tweede manier om het begrip kans te definiëren, leiden we in met het volgende voor- 
beeld. 


Voorbeeld 2 

Er wordt 1000 keer met een dobbelsteen geworpen. Er verschijnt 200 keer een ogen- 
aantal van 6. Wat is de kans dat met die dobbelsteen in een willekeurige worp 6 ogen 
gegooid worden? 


Oplossing 

In dit voorbeeld is een experiment, het opwerpen van een dobbelsteen, 1000 maal uitge- 
voerd. Op het eerste gezicht een zinloos tijdverdrijf, maar bij nader inzien is dit experi- 
ment zo vaak uitgevoerd om vast te kunnen stellen of de dobbelsteen zuiver (eerlijk) of 
onzuiver (oneerlijk) is. Het aantal keren dat het experiment ‘6’ als ogenaantal opleverde, 
is 200. We kunnen nu de kans dat de geworpen dobbelsteen in één willekeurige worp 
‘© als uitkomst oplevert, schatten door het aantal malen dat het experiment ‘6’ ople- 
verde te delen door het aantal malen dat het experiment werd uitgevoerd: = d De 
hier toegepaste definitie noemen we de relatieve frequentie-definitie, omdat de relatieve 
frequentie van het aantal keren ‘6’ bepaald werd. De vraag of de dobbelsteen waarmee 
geworpen is zuiver is of niet, kunnen we nog niet beantwoorden. Het zou kunnen zijn 
dat bij 10.000 maal gooien de relatieve frequentie van het aantal malen ‘6’ veel dich- 
ter bij ` ligt (dit is volgens de klassieke definitie de kans dat de dobbelsteen bij één 


worp het ogenaantal ‘6’ oplevert, althans indien de dobbelsteen echt zuiver is, dus alle 





uitkomsten even grote kans van optreden hebben). Maar het is ook mogelijk dat de ge- 
bruikte dobbelsteen wel degelijk onzuiver is. In hoofdstuk 9 zullen we op dit probleem 
terugkomen. 


4.2.3 De wet van de grote aantallen 
Het in het vorige voorbeeld beschreven verschijnsel is gebaseerd op de zogenaamde experi- 
mentele wet van de grote aantallen. Deze wet is als volgt te formuleren: 


Stelling 1 

Neem aan dat de omstandigheden bij een reeks experimenten niet veranderen. Dan zal 
de relatieve frequentie waarmee gebeurtenis А optreedt, bij voortdurende toename van 
het aantal experimenten naderen tot een constante waarde. 


Als de dobbelsteen uit de experimenten van voorbeeld 2 inderdaad zuiver is, mogen we 
verwachten dat de relatieve frequentie van het aantal keren dat 6 ogen gegooid wordt, op 
den duur naar ` zal naderen. Zie figuur 4.1 voor een toelichting. 

De algemene formulering van de in voorbeeld 2 toegepaste relatieve frequentie-definitie is 
als volgt: 
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Fig. 4.1 Experimentele wet van de grote aantallen 


Definitie 

Wanneer een experiment onder gelijke omstandigheden N maal wordt uitgevoerd, is de 
kans op het optreden van een bepaalde gebeurtenis (X) gelijk aan het aantal malen n(X) 
dat deze gebeurtenis optreedt, gedeeld door М: 


n(X) 


N (4.3) 


P(X) = 





Vaak kennen we de mogelijke uitkomsten van een experiment zonder het te hoeven uit- 
voeren. Wanneer we tevens voldoende kennis hebben over de kans van optreden van de 
mogelijke uitkomsten van dat experiment, is het zinloos dat experiment daadwerkelijk uit 
te voeren en gebruiken we de klassieke kans-definitie. Als we van tevoren hadden geweten 
dat de dobbelsteen uit voorbeeld 2 zuiver was, hadden we ons de moeite van het werpen 
kunnen besparen. 


4.2.4 Subjectieve kansdefinitie 

Vaak 15 het onmogelijk op volkomen objectieve wijze (met een formele definitie) een kans 
te definiëren. Toch wordt het kansbegrip dan wel degelijk toegepast, maar we moeten er 
wat voorzichtiger mee omgaan. 


Voorbeeld 3 
Een nieuw product wordt ontworpen. Wat is de kans dat dit product een succes wordt? 
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Oplossing 

In dit voorbeeld is het onmogelijk op objectieve wijze de kans uit te rekenen. Zonder 
de behoefte aan een nieuw product te kennen, is de kans dat het bewuste product een 
succes wordt dan ook subjectief. We spreken over een subjectieve kans. Wanneer de 
behoefte aan het product met behulp van marketingtechnieken min of meer bekend is, 
wordt het iets gemakkelijker om zo’n kans te schatten. Er zal echter vrijwel altijd een 
gebrek aan voldoende kennis van de ‘markt’ zijn om zo’n kans volkomen objectief te 
kunnen bepalen. 


In voorbeeld 3 kunnen we nog wel van een experiment spreken, namelijk het ontwerpen van 
een nieuw product, dat wel of niet goed verkocht zal worden. De mogelijke uitkomsten van 
dat experiment zijn “wel een succes’ of ‘geen succes’. Maar over de kans van optreden van 
de beide uitkomsten kunnen we zonder een marketingonderzoek weinig zeggen. Bovendien 
kunnen we zo’n experiment niet herhalen onder dezelfde omstandigheden. Om te kunnen 
vaststellen of een kans op objectieve wijze kan worden berekend, definiëren we het begrip 
kansexperiment. 


Kansexperiment 

In de voorbeelden 1 en 2 was sprake van een experiment, dat bij herhaling onder dezelfde 
omstandigheden kon worden uitgevoerd. De mogelijke uitkomsten waren bekend en omdat 
de omstandigheden iedere keer dezelfde waren, verandert de voorspelbaarheid van de ver- 
schillende gebeurtenissen niet, ook al voert men het experiment gedurende lange tijd uit. 
Zo’n experiment heet een kansexperiment. Wanneer we op objectieve wijze over kansen 
willen spreken, moet sprake zijn van een kansexperiment. 


We besluiten deze inleiding met nog twee voorbeelden waarin een van de genoemde kans- 
definities kan worden toegepast. 


Voorbeeld 4 

De ervaring heeft geleerd dat van de productie van een bepaald product gemiddeld 5% 
van het aantal stuks kwalitatief slecht is. Per dag worden zo’n 1000 stuks van dat product 
geproduceerd. Men neemt een steekproef van 20 stuks. Wat is de kans dat er precies één 
kwalitatief slecht product bij zit? 


Oplossing 

In dit voorbeeld is ook weer sprake van een experiment dat iedere dag onder dezelfde 
omstandigheden verricht zou kunnen worden. De mogelijke uitkomsten van dat expe- 
riment zijn 0, 1, 2, … 19 of alle 20 kwalitatief slechte producten, òf, wat op hetzelfde 
neerkomt: 20, 19, 18, …, 1 of O kwalitatief goede producten. De kans op 0, 1, 2,..., 19 of 
20 slechte producten kan berekend worden zonder het experiment te hoeven uitvoeren, 
dus volgens de klassieke definitie. Maar deze kansen zijn niet zo gemakkelijk als in de 
voorbeelden 1 en 2 te berekenen. Daarvoor is kennis nodig van de rekenregels die in de 
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kansrekening gebruikt mogen worden. In de volgende paragrafen zullen we deze reken- 
regels formuleren. In het volgende hoofdstuk (bij de binomiale kansverdeling) zullen we 
de in dit voorbeeld gevraagde kans daadwerkelijk leren uitrekenen. 

Let op: Denk niet dat er bij een steekproef van 20 producten altijd wel één is van kwa- 
litatief slechte аага (5% van 20). De gevraagde kans zou dan 1 zijn (‘altijd’). Deze 
redenering is onjuist: daarbij wordt immers uitgesloten dat er 0, 2 , 3,....19, of 20 pro- 
ducten van slechte kwaliteit zijn, terwijl deze uitkomsten van de steekproef wel degelijk 
tot de mogelijkheden behoren. 


Voorbeeld 5 

Een randomgenerator genereert willekeurige reële getallen tussen -1 en 1. Men genereert 
met zo’n randomgenerator n punten met de coördinaten (x, y), die liggen binnen het 
vierkant dat gevormd wordt door de punten (— 1, — 1), (1, —1), (1, 1) en (—1, 1) in het 
xy-vlak. Dit vierkant heeft dus als zijde 2 = 2. Men telt het aantal punten р dat binnen 
of op de rand van de cirkel met de vergelijking х? + у? = 1 valt (zie figuur 4.2). Men 
kan op deze manier de verhouding van de oppervlakken van de cirkel (= лг? 
r = 1) en het vierkant benaderen en daarmee een schatting maken van het getal л: 


= л, want 









А -08 06-04 02 1 1 
-0,2 


-0,4 


Fig. 4.2 Monte Carlo-simulatie 


In dit voorbeeld werd de relatieve frequentie-definitie gebruikt. Hoe groter het aantal 
punten dat gegenereerd wordt, hoe beter de benadering уап het bijzondere getal т. We 
zien hier een voorbeeld van zogenaamde Monte Carlo-simulatie. 
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4.3 Rekenen met kansen 


Met kansen kan tot op zekere hoogte gerekend worden. Hiervoor staat een aantal regels 
ter beschikking. Deze regels kunnen we aanschouwelijk maken, maar om werkelijk met 
kansen te kunnen manipuleren, moeten we deze regels netjes formuleren. Daarbij zullen 
we de uit de wiskunde bekende verzamelingenleer gebruiken. We hebben daartoe te maken 
met de volgende begrippen en notaties. 


4.3.1 De begrippen uitkomstenruimte en gebeurtenis 

De uitkomstenruimte van een experiment is de verzameling van alle mogelijke uitkomsten 
van dat experiment. De uitkomstenruimte wordt vaak weergegeven met de hoofdletter U. 
Zo wordt de uitkomstenruimte van een worp met twee dobbelstenen (voorbeeld 1, uit de in- 
leidende paragraaf) weergegeven als de verzameling: U1 = {(1, 1), (1, 2), (1, 3), ..., (6, 6)}. 
Deze verzameling bevat 36 mogelijke uitkomsten. 

De uitkomstenruimte van het experiment uit voorbeeld 2 (worp met een dobbelsteen) is de 
verzameling U) = {1, 2, 3, 4, 5 en 6}. In voorbeeld 3 (uitbrengen van een nieuw product) 
is de uitkomstenruimte van het experiment de verzameling U3 ={wel een succes, geen suc- 
ces} en de uitkomstenruimte in voorbeeld 4 (het aantal kwalitatief slechte exemplaren іп een 
steekproef van 20 stuks) is de verzameling U4 = (0, 1, 2, ........., 20}. In het vijfde voor- 
beeld (het genereren van een punt binnen een vierkant) bestaat de uitkomstenverzameling 
uit alle (oneindig veel) punten in het beschreven vierkant. 

Bij de berekening van een kans zijn we geïnteresseerd in die uitkomsten die aan de om- 
schreven kenmerken voldoen. Die uitkomsten vormen altijd een deelverzameling van de 
uitkomstenruimte. De deelverzameling van uitkomsten die hoort bij de beschrijving, wordt 
meestal een gebeurtenis genoemd. 


Voorbeeld 6 

Zo kunnen we bij de worp met een dobbelsteen (met uitkomstenruimte U = {1, 2, 3, 4, 5, 
6}) als mogelijke gebeurtenissen formuleren: И = {1}, № = {1 of 5}, V3 = {even ogen- 
aantal}, V4 = {ogenaantal groter dan 3} enzovoorts. 


4.3.2 Venn-diagram 

Een uitkomstenruimte met verschillende gebeurtenissen kunnen we weergeven in een zoge- 
naamd Venn-diagram. In figuur 4.3 is een Venn-diagram getekend voor de uitkomstenruimte 
behorend bij voorbeeld 6 (de worp met een dobbelsteen), met daarin de gebeurtenissen V4, 
У, Үз en V4. 
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Fig. 4.3 Venn-diagram 


4.3.3 Begrippen uit de verzamelingsleer 

Uit de verzamelingstheorie worden de volgende notaties gebruikt. Wanneer A en B gebeur- 

tenissen zijn, die deel uitmaken van een uitkomstenruimte U, noteren we 

— А С В, dat wil zeggen А 15 een deelverzameling van В. 

— AUB, de vereniging van A еп B, dit betreft de uitkomsten die bij gebeurtenis A en/of 
gebeurtenis B optreden. 

— AN B, de doorsnede van А en В, dit zijn de uitkomsten die zowel bij gebeurtenis A als 
B optreden. 

— А, het complement van A, dit is de verzameling van alle uitkomsten die niet bij gebeur- 
tenis A optreden. 


Ter toelichting van de zojuist genoemde begrippen uit de verzamelingsleer geven we het 
volgende voorbeeld. 


Voorbeeld 7 

U = {alle 52 kaarten in een volledig kaartspel} 
А = {de 13 harten in het spel} 

B = {de 4 azen in het spel)} 

Dan is: 
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A U B = {de 13 harten (inclusief hartenaas) + de 3 overige azen}= B U А = {de 4 azen 
(inclusief hartenaas) + de 12 overige harten} 

A N B = {hartenaas} 

A = {de 13 schoppen + de 13 klaveren + de 13 ruiten} 

Ter illustratie geven we het bijbehorende Venn-diagram: 


U = {52 kaarten} 





Fig. 4.4 Venn-diagram bij voorbeeld 7 


4.3.4 n x m-tabellen 
In de kansrekening worden verzamelingen en deelverzamelingen vaak gedefinieerd vanuit 


een tabel. 


Voorbeeld 8 
In onderstaande tabel is een groep van 850 studenten verdeeld in vier deelgroepen, af- 


hankelijk van geslacht en gekozen studierichting. 
Tabel 4.1 Aantallen vrouwelijke en mannelijke eerstejaarsstudenten in de studie- 
richtingen Bouwkunde en Elektrotechniek aan een Technische Universiteit 


bouwkunde (В) elektrotechniek ( E ) totaal 


vrouwelijk ( V ) 200 50 250 
mannelijk ( M ) 150 450 600 


totaal 350 500 850 
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We kunnen vanuit de tabel definiëren: 

U = {alle (850) eerstejaarsstudenten bouwkunde en elektrotechniek}; 

В = {alle (350) eerstejaarsstudenten bouwkunde}; 

Е = {alle (500) eerstejaarsstudenten elektrotechniek}; 

V = {alle (250) vrouwelijke eerstejaarsstudenten)}; 

М = {alle (350) mannelijke eerstejaarsstudenten}; 

Dan is bijvoorbeeld 

B NV ={alle (200) vrouwelijke eerstejaarsstudenten bouwkunde}; 

MUB = {alle (600) mannelijke eerstejaarsstudenten + alle (200) vrouwelijke eerstejaars 
bouwkundestudenten } 

В ={alle (500) eerstejaarsstudenten die geen bouwkunde studeren} = {alle 500 eerste- 
jaarsstudenten die elektrotechniek studeren} = Е 

ВПУ = {de (650) eerstejaarsstudenten die niet tegelijk bouwkunde studeren en vrouw 
zijn} = {de (250) eerstejaars elektro-studenten (inclusief de vrouwelijke) + alle (400) 
mannelijke eerstejaars bouwkunde-studenten)} 


In tabel 4.2 is een aantal deelverzamelingen, afgeleid van tabel 4.1, symbolisch afge- 
beeld. 


Tabel 4.2 
bouwkunde elektrotechniek totaal 
vrouwelijk VAB VAE V 
mannelijk MAB MOE M 
totaal B E U 
Opdracht 


Definieer zelf in woorden met behulp van de bovenstaande tabellen de verzamelingen BUV, 
ВОМ, ВО Меп BN E. Bereken het aantal studenten in de betreffende verzamelingen. 





Aantallen elementen in een verzameling 
Wanneer we het aantal elementen van een verzameling X aanduiden met n(X), blijkt uit 
tabel 4.1: 

n(U) = 850, n(B) = 350, п(Е) = 500, n(M) = 600, n(V) = 250 en verder: 

n(B N V) = 200, n(B N M) = 150, n (E N V) = 50 en n(E NM) = 450. 

Bedenk dat bijvoorbeeld n(B) = n(B N V) + n(B N M) = 200 + 150 = 350. 

Willen we vaststellen hoeveel bijvoorbeeld n(B U V) bedraagt, dan kunnen we in overeen- 
stemming met de eerder gegeven definitie van B U V schrijven: 
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n(BUV)=n(B) +п(ЕПУ) = 350 + 50 = 400. 

Omdat (zie tabel 4.2) n( ENV) =n(V) -n(BNV) 

kan n(B U V) ook geschreven worden als: 

n(BUV)=n(B)+n(V)—n(BA V) = 350 + 250 — 200 = 400. 

En ten slotte: omdat B U V en E N M elkaars complement zijn (bouwkunde en/of vrouw is 
niet electrotechniek en niet man), geldt ook nog 

dat n(B U V) = n(U) — n(E N M) = 850 — 450 = 400. 

Nu we dit soort formules (eventueel met behulp van Venn-diagrammen) kunnen opschrij- 
ven, is het een kleine stap terug naar de kansrekening. Op de zojuist ontwikkelde formules 
komen we straks terug. 


4.4 Het formele kansbegrip 


Nu we gebeurtenissen kunnen identificeren met verzamelingen en de bijbehorende uitkom- 
sten met elementen uit die verzamelingen, kunnen we het kansbegrip op een formele manier 
herdefiniëren. We zullen ervoor zorgen dat deze definitie aansluit bij de in de inleiding van 
dit hoofdstuk gegeven definities van het begrip kans. Het formele kansbegrip omvat drie 
uitgangspunten (in de wiskunde noemt men dit axioma’s) die ons in staat stellen kansen te 
berekenen met gebruikmaking van wiskundige logica, gebaseerd op verzamelingenleer. We 
zullen deze drie uitgangspunten hier in het kort bespreken. 


Axioma 1 

Wanneer bij een kansexperiment de n mogelijke gebeurtenissen K1, Кә, Кз, ....Kn kun- 
nen optreden, Кап aan iedere gebeurtenis К; een kans P(K;) worden toegekend, zodanig 
dat 


DE РОК) l (4.4) 


Opmerking 
Hier wordt dus gesteld dat een kans nooit negatief kan zijn en ook niet groter dan 1. 


Opdracht 
Ga na dat deze axiomatische definitie van het begrip kans in overeenstemming is met de 
twee definities in paragraaf 4.2. 
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4.4.1 Elkaar uitsluitende gebeurtenissen 

Elkaar uitsluitende (ook wel genoemd: disjuncte) gebeurtenissen zijn gebeurtenissen die 
bij eenmalige uitvoering van een kansexperiment niet tegelijkertijd kunnen optreden. 
Voorbeelden van elkaar uitsluitende gebeurtenissen zijn: 

— ‘kop’ en ‘munt’ bij de worp met een muntstuk; 

— ‘één slecht product’ en ‘twee slechte producten’ bij een kwaliteitscontrole; 

— ‘5 ogen’ en ‘minder dan 3 ogen’ bij de worp met een dobbelsteen; 

— ‘klaver’ en ‘schoppen’ bij het trekken van een speelkaart. 


Elkaar niet-uitsluitende gebeurtenissen zijn gebeurtenissen die bij eenmalige uitvoering van 
een kansexperiment wél tegelijkertijd kunnen optreden. 

Voorbeelden van elkaar niet uitsluitende gebeurtenissen zijn: 

— ‘2 ogen’ en ‘een even aantal ogen’ bij de worp met een dobbelsteen; 

— ‘één slecht produkt’ en ‘minder dan twee slechte produkten’ bij een kwaliteitscontrole; 
— ‘ruiten’ en ‘boer’ bij het trekken van een speelkaart. 


Axioma 2 


Wanneer alle mogelijke gebeurtenissen Ку, Кә, K3, ....Kn van een kansexperiment el- 
kaars optreden uitsluiten, geldt 


n 


3 P(Ki) = P(K1) + P(K2) +... + Р(К„) = 1 (4.5) 
i=l 


Dit axioma is een logisch gevolg van de definitie van het begrip uitkomstenruimte. Wanneer 
K1, Кә, Кз, ....Kn alle (elkaar uitsluitende) gebeurtenissen uit de uitkomstenruimte zijn, 15 
de som van de kansen hierop gelijk aan 1. Zie het volgende voorbeeld. 


Voorbeeld 9 

Als uitkomstenruimte van een worp met een dobbelsteen kunnen we definiëren: {1, 2, 3, 
4, 5, 6}. De 6 bijbehorende uitkomsten sluiten elkaar uit en omdat ieder van hen kans 
P(K;) = 5 (i = 1,2, 3, … 6) heeft, is de som van hun kansen gelijk aan 1. 

Pas op! De definitie van de uitkomstenruimte bij een gebeurtenis is meestal niet uniek, 
dat wil zeggen: er zijn andere uitkomstenruimten mogelijk. Wanneer we als uitkomsten- 
ruimte уап een worp met een dobbelsteen definiëren: { К, K2} met Kı = {minder dan 5 
ogen} еп Кә = {5 ogen of meer}, is eveneens aan axioma 2 voldaan. Ga dit na! 


4.4.2 De speciale optelregel 
Met een derde axioma wordt de formele definitie van het kansbegrip voltooid. 


Voorbeeld 10 
Een kansexperiment bestaat uit het gooien met een zuivere dobbelsteen. 
Met К; = {een even aantal ogen} еп К» = {5 ogen} geldt er: 
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INS 


P(KiU Кә) = Р@2,4,6)++Р(б)у={ + = =3. 
Maar: met Kı = {een oneven aantal ogen} еп Кэ = {5 ogen} geldt ег: 

РК МК») ees SEL 3..9) = ` enmet РОККО) = BIEL A DH PO) = Sie omdat 
we P(5) in dat geval dubbel zouden tellen. We mogen de afzonderlijke kansen P (K1) 
en Р(К») blijkbaar alleen optellen wanneer К en Ko elkaars optreden uitsluiten. 


Dit leidt tot de volgende veronderstelling: 


Axioma 3 
Wanneer de gebeurtenissen Kı en Ко elkaar uitsluiten, is de kans dat Кү of Кэ optreedt 
gelijk aan de som van hun kansen. In formulevorm 


P{Kr U Ко) = PIKO + РСК) (4.6) 


In feite definieert Kı U Кэ de verzameling van alle elementen die óf tot Kı óf tot Кә óf 
tot beide behoren. Maar omdat Kı П Кэ in dit geval leeg is (ze sluiten elkaar immers uit), 
definieert Kı U Кә hier de verzameling van alle elementen, die ofwel tot Kı ofwel tot K2 
behoren. We kunnen dit als een speciaal geval beschouwen en spreken daarom ook van 
de ‘speciale’ optelregel. Het ‘algemene’ geval, waarin Kı en Кә elkaar niet uitsluiten — 
dus het geval waarin Ку N Кә niet leeg is — maakt de berekening van Р(К ү U К») iets 
gecompliceerder. We komen hierop terug in paragraaf 4.5. 


4.5 Rekenregels 


Uit de 3 axioma’s die we in het kader van het formele kansbegrip in paragraaf 4.3 hebben 
behandeld, volgt een aantal (nieuwe) rekenregels. Met deze regels is het mogelijk ingewik- 
kelder kansvraagstukken op te lossen dan tot nu toe aan de orde zijn geweest. We zullen die 
rekenregels in deze paragraaf behandelen. 


4.5.1 De complementregel 
De eerste regel die volgt uit de axioma's uit de vorige paragraaf is de complementregel. 


Stelling 2 
Voor iedere gebeurtenis К geldt: 


P(K)= 1 Р(К) (4.7) 


Deze regel volgt rechtstreeks uit axioma 2 want K en K vormen tezamen de uitkomsten- 
ruimte en sluiten elkaar uit, zodat P(K) + P(K) = 1. 

Het verdient aanbeveling de complementregel toe te passen wanneer men P(X) moet bere- 
kenen in een situatie waarin het minder werk blijkt te zijn om eerst P(K) te berekenen. 
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Voorbeeld 11 
Bereken de kans dat de som van het aantal ogen in 2 opeenvolgende worpen met een 
zuivere dobbelsteen minstens 3 bedraagt. 


Oplossing 

Met i = ‘het aantal ogen in de eerste worp’ en j = ‘het aantal ogen in de tweede worp’ 
is het complement van de gebeurtenis K = {i + j > 3} identiek aan de gebeurtenis 
K = {i + j < 2}. De gebeurtenis К kan alleen gerealiseerd worden met de uitkomst 
waarbij і = len j = 1, zodat n(K) = 1. 

Omdat de uitkomstenruimte uit 6 x 6 = 36 uitkomsten bestaat, is n(U) = 36 en dus 
geldt er 

n(K) ` e 


Be) BE en ani de 





4.5.2 De algemene optelregel 
Een uitbreiding van axioma 3 is de zogenaamde algemene optelregel . 


} 


Stelling 3 
Wanneer Kı en Кә willekeurige gebeurtenissen zijn, geldt de algemene optelregel: 


РОК U Ko) = Р(Ку) + Р(Кэ) — Р(КІП Ko) (4.8) 


Wanneer Kı N Ko leeg is (dus geen elementen bevat), is P(Ki O K2) = О en gaat de 
algemene optelregel over in de speciale optelregel van axioma 3. 
Het principe van de algemene optelregel is het beste te illustreren met een Venn-diagram. 


K2 


Fig. 4.5 Toelichting principe algemene optelregel 


In het linkergedeelte van figuur 4.5 zien we de vereniging Kı U Кә van de verzamelingen 
К en Ks. In het rechtergedeelte is de vereniging opgesplitst in de verzamelingen Ку N K2 
(links), Kı N Kz (midden) en Ку N Kz (rechts). 
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Er geldt dus P(Ki U K2) = Р(Ку N К) + P(Ki N K2) + P(Ki П Ko). Verder geldt dat 
К | is op te splitsen in de verzamelingen Kı N Kz en Кү N Kə. We kunnen dus schrijven 
Р(К\) = Р(Кү N K2) + P(K1 П K2), oftewel P(Ki N К) = P(K1) — P(Ki П К). 

Op dezelfde manier blijkt ook dat P (K2) = P(K1i NK») + P(K1N Ко), dus P(K10 K2) = 
P(K2)— P(K1 П КА). 

Conclusie: 


P(Ki U Kz) РОКІ) = PLAT Ka) + РОК Г Ке) 4 РОКо) = PCR MA) 


= PIKI) + Р(К2) – Р(КІП Ko) 


We zullen regel (4.8) illustreren met een voorbeeld. 


Voorbeeld 12 
Uit een goed geschud volledig kaartspel (52 kaarten) trekt men een kaart. Hoe groot is 
de kans op een harten of een boer of beide? 


Oplossing 

Met Kı = {harten} en К» = {boer}, 

Kı U Кә = {alle harten (inclusief hartenboer) + de 3 overige boeren} en 

Kı N Кэ = {hartenboer}, 

vinden we met behulp van rekenregel (4.8): 

P (harten of boer of beide) = P (K1 U К») = P (K1) + P(K2) — P (K1 A К») = 

P (harten) + P (boer) —P (hartenboer) = E + +з es я = 5 = £, 
4.5.3 Voorwaardelijke kansen 
Het begrip voorwaardelijke kans speelt in de kansrekening een belangrijke rol: vele kans- 
problemen zijn slechts op te lossen met gebruikmaking van voorwaardelijke kansen. We 
zullen eerst het begrip via twee voorbeelden introduceren en toelichten en daarna een re- 
kenregel voor voorwaardelijke kansen formuleren. 


Voorbeeld 13 

We gebruiken de gegevens van voorbeeld 8. Een groep van 850 studenten is op twee 
manieren verdeeld: over twee studierichtingen en en naar geslacht. In de tabel staan de 
aantallen. 


bouwkunde (В) elektrotechniek ( Е ) totaal 

vrouwelijk ( V ) 200 50 250 
mannelijk ( M ) 150 450 600 
totaal 350 500 850 
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Bereken de volgende kansen: 

a. De kans dat een willekeurig gekozen student uit de groep van 850 studenten een 
vrouw is. 

b. De kans dat een willekeurig gekozen bouwkundestudent vrouw is. 

с. Юе kans dat een willekeurig gekozen student bouwkunde studeert èn vrouw is. 

d. De kans dat een willekeurig gekozen vrouw bouwkunde studeert. 


Oplossing 
We berekenen de volgende kansen: 


a. De kans dat een willekeurig gekozen student uit de groep van 850 studenten een 
vrouw is. 





МИР e? n(V 
Volgens de klassieke definitie van het kansbegrip is deze kans P(V) = N == 
250 _ 5 
850 — 17 


D De kans dat een willekeurig gekozen bouwkundestudent vrouw 15. 


Dit is een zogenaamde voorwaardelijke kans. Gegeven (voorwaarde!) is dat de stu- 
dent bouwkunde studeert. De uitkomstenruimte is dus beperkt tot de groep bouwkunde- 


studenten. In de formule voor de klassieke kansdefinitie is N in de noemer nu niet 


(ВПУ 
850 maar 350. Notatie: P(V | В) = Е = SA == d 
n(B) ge 


c. De kans dat een willekeurig gekozen student bouwkunde studeert én vrouw is. 


Ook deze kans wordt met de klassieke definitie berekend. Nu is de uitkomstenruimte 
wel de verzameling van 850 studenten. 
n(BNV) 00 


ale 


d. De kans dat een willekeurig gekozen vrouw bouwkunde studeert. 


Ook hierbij hebben we te maken met een voorwaardelijke kans. De uitkomsten- 

ruimte met alle mogelijke gebeurtenissen is nu de verzameling vrouwen: 

P(B | V) = ——— = 5 = 
okt, n(V) S 

Merk op dat P(V | B) niet gelijk is aan P(B | V)!! 

Merk ook op dat P(V)- P(B | V) = P(B ПУ) (zie ook later bij regel (4.9) t/m 

(4.11). 


Uit het laatste voorbeeld halen we de definitie: 
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Definitie 
De voorwaardelijke kans dat gebeurtenis Kr optreedt op voorwaarde dat gebeurtenis Кә 
optreedt (of is opgetreden) schrijven we als Р(К | K2). Spreek uit als: Р(К у onder 


voorwaarde K2). 


In het volgende voorbeeld worden bijna alle tot dusver ontwikkelde kansregels toegepast. 


Voorbeeld 14 

Van een partij producten is 90% van goede kwaliteit (G), maar 10% vertoont gebreken 
(G). Beschouw dit als een praktijkgegeven. Alle producten worden gekeurd, maar de 
keuringsdeskundige maakt fouten (zoals ieder mens!). Uit ervaring is bekend dat van 
de goede producten 5% ten onrechte wordt afgekeurd (dus 95% van de goede producten 
wordt terecht goedgekeurd). Tevens is bekend dat van de kwalitatief slechte producten 
ten onrechte toch nog 12% wordt goedgekeurd (dus 88% van de slechte producten wordt 
terecht afgekeurd). Bereken de kans dat een afgekeurd product toch goed blijkt te zijn. 


Oplossing 

Gegeven: 

РОС) = 0d РЕС) 0,1 

P(afkeur| С) = 0,05 > P(goedkeur| С) = 0,95 
P(goedkeur| С) = 0,12 = P(afkeur| С) = 0,88. 


Merk op dat de complementregel drie keer is gebruikt. Merk ook op dat in tegenstelling 
tot het vorige voorbeeld geen aantallen gegeven zijn, maar kansen (eventueel om te zetten 
naar percentages). De gevraagde kans berekenen we door te doen alsof de aantallen 
wel bekend zijn. Vervolgens manipuleren we met de aantallen zodanig dat het kansen 
worden. Vergelijk de hierbij gebruikte formules met die uit het vorige voorbeeld. 


het aantal goede (en) afgekeurde producten 
Р(С | afkeur) = —_—_—_————— 
het aantal afgekeurde producten 


n(G N afkeur) 
n( afkeur) 


n(G M afkeur) 
n(totaal) 

n( afkeur) 
n(totaal) 
P(G N afkeur) 
P(afkeur) 


Merk weer op dat P (G N afkeur) blijkbaar te schrijven is als P (afkeur) · P(G |afkeur). 
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Op soortgelijke wijze kunnen we aantonen dat 


P(G N afkeur) 


P(afkeur | G) = РСС) 


dus 
P(G П afkeur) = P(G)- P(afkeur | G) 
en evenzo is 


P (afkeur N G) = P(G)- P(afkeur | С) 


Bedenken we dat de afgekeurde producten uit twee categorieeën bestaan, namelijk de 
goede afgekeurde producten en de slechte afgekeurde producten, dan kunnen we volgens 
de speciale somregel schrijven: 


P (afkeur) = P(afkeur N G) + P(afkeurN G) 
= Р(С): P(afkeur | G) + P(G)- P(afkeur | G) 


Invullen van de gegevens levert 


(0, 9) (0, 05) Se 
(0, 9)(0, 05) + (0, 1)(0, 88) 133 
We kunnen de berekende resultaten ook nu in een (2 х 2)—tabel aangeven. Alleen staan 
er in de tabel nu geen aantallen, maar het principe is hetzelfde: 


P{G | afkeur) = де 0, 34 


goedkeuring afkeuring totaal 


G P(G N goedkeur) P(G N afkeur) 0,9 
С Р(СП goedkeur) Р(С N afkeur) 0,1 


totaal 1 
en ingevuld met behulp van de gegevens: 


goedkeuring afkeuring totaal 


e (0,9)(0,95) = 0,855 (0,9)(0,05) = 0,045 0,9 
G (0,1)(0,12) = 0,012 (0,1)(0,88) = 0,088 0,1 


totaal 0,867 0,133 ] 


We hebben in bovenstaande twee voorbeelden kunnen zien hoe een voorwaardelijke kans 
kan worden berekend. Dit vatten we samen in de volgende rekenregel: 





Kansrekening hoofdstuk 4 67 





Stelling 4 
De kans dat gebeurtenis Кэ zal optreden onder de voorwaarde dat gebeurtenis Кү op- 
treedt is gelijk aan: 


| P(Ki N K2) 
PIKI | Ep s Å— (4.9) 
Р(К]) 
Ор analoge wijze geldt: 
P(Ki N Кэ) 
Piki j ka= 
P(K2) 


4.5.4 De algemene productregel 
Denkend aan hetgeen we in de laatste twee voorbeelden behandeld hebben en de rekenregel 
(4.9), is het nu niet moeilijk meer de zogenaamde algemene productregel te formuleren: 


Stelling 5 
Wanneer Kı en Кә gebeurtenissen zijn met P (K1) Æ Оеп P (K2) # О dan is: 


Р(КІП Ko) P(K1)- P(Ko | Ki) (4.10) 


Р(К2) + РОК | Ko) (4.11) 


De twee zojuist geformuleerde regels noemt men de algemene productregel(s). 


Voorbeeld 15 

Uit een volledig spel kaarten worden 2 kaarten getrokken. De trekking geschiedt zonder 
teruglegging, dat wil zeggen dat de eerstgetrokken kaart niet in het spel wordt terugge- 
legd alvorens de tweede kaart wordt getrokken. Hoe groot is de kans dat beide kaarten 
harten zijn? 


Oplossing 

We dienen in dit geval te bedenken dat, wanneer de eerstgetrokken kaart een harten is, 
het spel daarna nog 52 — 1 = 51 kaarten bevat waarvan er 13 — 1 = 12 harten zijn. Met 
К | = {de eerste kaart is harten} en Кә = {de tweede kaart 15 harten} leidt toepassing van 
rekenregel (4.10) tot: 

Р (де eerste kaart is harten én de tweede kaart is harten) = 

P(Ki П Кэ) = P(K1) · P(K2 | Кү) = 


Р (de eerste kaart is harten) · Р (de tweede kaart is harten | de eerste kaart is harten) = 
15 12 Ч 


SS 51 Т7 
4.5.5 Afhankelijkheid еп onafhankelijkheid 
Wanneer het optreden van gebeurtenis Kı geen invloed heeft op de kans van optreden van 
gebeurtenis Кэ — dat wil zeggen wanneer P (K2) hetzelfde blijft ongeacht of Kı nu wel of 
niet is opgetreden — kunnen we voor P(K2|K1) gewoon P(K») schrijven. In het geval dat 
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Р(К\|К») = P(Ki) Æ 0 én P(K2|K1) = P(K2) # О zeggen we dat de gebeurtenissen 
Kı en Кә onafhankelijk zijn. 

Wanneer het optreden van gebeurtenis K2 wel beïnvloed wordt door het optreden van ge- 
beurtenis Kı (en/of omgekeerd), worden Кү en Кә afhankelijke gebeurtenissen genoemd. 
In dat geval 15 Р(К\||К») Æ P(Ki1) en/of Р(К| КІ) Æ P(K2). Bij afhankelijke ge- 
beurtenissen gebruiken we rekenregel (4.10) of (4.11) (de algemene productregel(s)). Bij 
onafhankelijke gebeurtenissen gebruiken we de zogenaamde speciale productregel. 


4.5.6 De speciale productregel 
Stel: de gebeurtenissen К еп Кә zijn onafhankelijke gebeurtenissen. Rekenregel (4.10) of 
(4.11) gaat dan over in rekenregel (4.12), de zogenaamde speciale productregel. 


Stelling 6 
Wanneer Kı еп Кә onafhankelijke gebeurtenissen zijn, dat wil zeggen wanneer 
PIKI IKa) = PK) Den РК |К) = PLK) A О, geldt: 


PIKT Жу) = РСК) = РОК) (4.12) 


Voorbeeld 16 
De kans om met twee dobbelstenen 2 ‘zessen’ te gooien, is op twee manieren te bereke- 
nen: 
a. Direct, met de klassieke definitie van het kansbegrip (zie hiervoor voorbeeld 1). 
D Met de speciale productregel: 
Met Ку = {6 ogen in de eerste worp} en Кэ = {6 ogen in de tweede worp} kunnen 
we stellen dat Kı en Кә onafhankelijk zijn, want de kans om bij de tweede worp een 
bepaald aantal ogen te gooien, wordt niet beïnvloed door het resultaat van de eerste 
worp. We mogen dus rekenregel (4.12) toepassen en vinden dan: 
P(6 ogen in de eerste worp en 6 ogen in de tweede worp) = 
P(Ki ПК) = 
TK: P(K2) = 
Р (б ogen in de eerste worp) · Р (6 ogen in de tweede worp) = ` . 


al 
109) 
OO 


4.6 Combinatoriek 


In de volgende paragrafen zullen we de lezer voorbereiden op het maken van iets ingewik- 
kelder kansvraagstukken en het bestuderen van kansverdelingen (hoofdstuk 5). Daartoe is 
het handig om enige kennis te hebben van de begrippen permutaties, variaties en combina- 
ties. 
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4.6.1 Permutaties 
Van de cijfers 1 en 2 kunnen we op twee manieren een getal van twee cijfers maken: 12 


en 21. van de cijfers 1, 2 en 3 kan op 6 manieren een getal van 3 cijfers gemaakt worden: 
123, 132, 213, 231, 312 en 321. Stel nu dat we de beschikking hebben over 5 verschillende 
cijfers: 1, 2, 3, 4 en 5. Op hoeveel manieren kunnen we van deze 5 cijfers een getal van 
5 cijfers maken? Het aantal manieren is te groot om uit te schrijven maar kan gemakkelijk 
berekend worden: het cijfer waarmee het getal begint kan op 5 verschillende manieren 
gekozen worden. Voor het tweede cijfer kan dan gekozen worden uit de 4 resterende cijfers. 
De eerste twee cijfers kunnen dus op 5 x 4 = 20 verschillende manieren gekozen worden. 
Voor het derde cijfer resteren nog 3 keuzemogelijkheden, zodat het aantal manieren waarop 
de eerste drie cijfers gekozen kunnen worden, gelijk is aan 5 x 4 x 3 = 60. Voor het 
vierde cijfer resteren nog 2 keuzemogelijkheden en voor het vijfde cijfer nog slechts 1. Met 
de 5 verschillende cijfers kan dus ор 5 · 4:3 :2. 1 = 120 verschillende manieren een 
getal van 5 cijfers gemaakt worden. We zeggen nu dat de 5 verschillende cijfers op 120 
manieren gerangschikt of gepermuteerd kunnen worden. Het aantal permutaties van de 5 
verschillende cijfers bedraagt 120. 


Opmerking 

Het product 5.4.3.2. 1 kan geschreven worden als 5! (lees: 5-faculteit). 

Het begrip faculteit is bekend uit de wiskunde. Hierin wordt n! gedefinieerd als: 

п! = (n)(n — 1)(п — 2)...(3)(2)(1) voor elk natuurlijk getal n, waarbij 1! gedefinieerd 
is als 1 en 0! eveneens als 1. 


мещ л я di 
Een belangrijke eigenschap van faculteiten is dat = k, dus bijvoorbeeld er f- 


(k — 1)! 
We kunnen nu de volgende definitie formuleren: 
Definitie 
Меп kan een groep van п verschillende elementen op Р„ = n! manieren rangschikken 
of permuteren. Elke rangschikking heet een permutatie. 


Stel nu dat een getal van 5 cijfers uitsluitend bestaat uit 3 nullen en 2 enen (zo’n getal heet 
een binair getal), bijvoorbeeld 10100. Zo’n getal kan als volgt worden gemaakt (let op de 
systematiek): 


11000 10100 10010 10001 01100 
01010 01001 00110 00101 00011 


We tellen tien manieren om 3 nullen en twee enen te rangschikken tot een getal van 5 cijfers. 
Wanneer we de drie nullen zouden vervangen door verschillende symbolen, bijvoorbeeld A, 
В en С (zodat 11000 wordt 11 АВС), wordt het aantal mogelijke rangschikkingen 3! keer 
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groter. Immers, de drie letters А, В en C kunnen in elk van de tien binaire getallen op 3! 
manieren worden gepermuteerd. We kunnen dus op 10 x 3! = 60 manieren een ‘getal’ 
vormen met de symbolen А, В, С en de twee enen. 

Vervangen we nu ook de twee enen door verschillende symbolen, bijvoorbeeld door de let- 
ters X en Y (voorbeeld: XAYBC, maar ook YAXBC), dan neemt het aantal rangschikkingen 
met een factor 2! toe tot 60 x 2! = 120. Dit klopt, want er is een ‘getal’ ontstaan dat bestaat 
uit 5 verschillende symbolen en we wisten al dat zo’n getal op 5! manieren is te maken. 
Terugredeneren leidt nu tot de conclusie, dat een getal van 5 cijfers dat opgebouwd is uit 3 


5! 
nullen en 2 enen op 301 = 10 manieren is te maken. 


We kunnen nu de volgende definitie geven: 


Definitie 
Wanneer een groep van N elementen 15 verdeeld in k groepjes van nj gelijke elementen, 
nj gelijke elementen, n3 gelijke elementen, enzovoorts (zodanig dat nj + п> +n3 +... + 
пк = М) dan is het aantal rangschikkingen (permutaties) van deze N elementen gelijk 
aan 
М! 
N = ; 

Enon = п\!пә!пз|\...пк! сыз, 
Voorbeeld 17 
Op hoeveel verschillende manieren Кап een gezin: 
a. met 4 kinderen 2 jongens еп 2 meisjes tellen”? 
b. met 8 kinderen 4 jongens en 4 meisjes tellen? 


Oplossing 
a. Met N = 4 (kinderen), nı = 2 (Jongens) en n2 = 2 (meisjes) vinden we volgens de 
4! 
definitie van permutaties dat het gevraagde aantal gelijk is aan РУ х= бөзү = 
8! o 
b. Met N = 8, пу = 4 en n = 4 vinden we: Pe, = — = 70. 
' 414! 


4.6.2 Variaties 
Stel dat we de beschikking hebben over 5 verschillende cijfers, bijvoorbeeld 1, 2, 3, 4 en 5. 
Uit deze groep van 5 cijfers nemen we er drie en vormen daarmee een getal van 3 cijfers. 
Op hoeveel manieren kunnen we dit doen? Het verschil met de situatie die hierboven is 
beschouwd, is dat we niet alle cijfers gebruiken maar slechts een deel ervan. Wel zijn de 
drie te kiezen cijfers verschillend. We moeten daarom bedenken dat het getal dat gevormd 
wordt door bijvoorbeeld de cijfers 2, 3 en 5 op 3! manieren kan geschieden. 

Voor het eerste cijfer van het getal kunnen we kiezen uit 5 mogelijkheden. Voor het tweede 
cijfer resteren nog 4 mogelijkheden en voor het derde cijfer hebben de keus uit de resterende 
3 cijfers. In totaal kunnen we dus op 5-4-3 = 60 verschillende manieren een getal van drie 
verschillende cijfers (te kiezen uit 5 verschillende cijfers). 
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d'rfbe ук» 9! 5! 


2:1 OM Gl 
dan hebben we voor het aantal manieren waarop we uit 5 beschikbare cijfers er 3 kunnen 


kiezen, een schrijfwijze gevonden, waarin zowel het aantal beschikbare elementen (5) als 
het aantal daaruit te kiezen elementen (3) wordt genoemd. Aldus komen we tot de volgende 
algemene definitie: 


Bedenken we dat 5 · 4 - 3 geschreven kan worden als 


Definitie 

Het aantal manieren waarop К verschillende elementen, uit een groep van п verschillende 

elementen (0 < k < n) kan worden gerangschikt, is : 

n! 
yi — (4.14) 
(n— k)! 

VC wordt uitgesproken als ‘V k uit n’ = het aantal variaties van k elementen uit een groep 
van n elementen. 


In het volgende voorbeeld geven we een toepassing van het begrip variaties in de kansreke- 
ning. 


Voorbeeld 18 

De 10 paarden die meedoen aan een harddraverij zijn genummerd van 1 toten met 10. Bij 
een ‘trio’ gaat het erom de nummers van de drie eerst aankomende paarden in volgorde 
van aankomst te voorspellen. Hoe groot is, onder de aanname dat voor ieder paard 
de winstkans even groot is, de kans op een goede voorspelling, wanneer men de drie 
nummers willekeurig kiest? 


Oplossing 
Bedenk dat niet alleen de nummers van de drie eerst aankomende paarden voorspeld 
moeten worden maar juist ook de volgorde van die nummers. Daarom moeten we het 


aantal manieren waarop we uit de 10 nummers 3 nummers kunnen kiezen, berekenen 


10! 
volgens de definitie van het begrip variaties. We vinden dan ve = 03) = 720. 
Er is maar één volgorde winnend. De gevraagde kans is dan volgens de klassieke kans- 


definitie gelijk aan 17. 


Wanneer de volgorde niet van belang is, krijgen we te maken met combinaties in plaats уап 
variaties. 


4.6.3 Combinaties 

Stel dat we uit een projectgroep van vijf personen (bijvoorbeeld А, B, С, D en E) er drie 
willen kiezen in het ‘bestuur’ van de projectgroep. Op hoeveel manieren kan dat? 

Dit voorbeeld lijkt veel op een vorig voorbeeld (na de definitie van permutaties) waarbij 
we uit een groep van 5 verschillende cijfers er 3 gekozen hebben om daarmee een getal 
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van drie cijfers te vormen. Het verschil is dat bij de keuze van elk drietal cijfers ook de 
onderlinge permutaties van die cijfers moesten worden meegeteld (235 15 een ander getal 
dan 352), terwijl bij de keuze van drie personen uit de groep van 5 personen de volgorde 
niet van belang is. Deze volgorde zou wel van belang zijn als we ons afvroegen op hoeveel 
manieren uit de 5 personen een voorzitter, een secretaris en een penningmeester (dus drie 
verschillende functionarissen) gekozen zouden kunnen worden. In dat geval is bijvoorbeeld 
de keuze A (voorzitter), B (secretaris), C (penningmeester) een andere dan B (voorzitter), C 
(secretaris) en A (penningmeester). In het laatste geval (wanneer de volgorde dus wel van 


belang is) hebben we het aantal variaties van 3 uit 5, dus = 60. Maar wanneer we 


(5—3)! 
alleen geïnteresseerd zijn in de drie personen die het bestuur vormen en niet in hun functies 
(= ‘volgorde’ ) krijgen we een veel kleiner aantal rangschikkingen. Wanneer we het aantal 
rangschikkingen van 3 uit 5 ongeacht de volgorde op x stellen, moet x-3! het aantal variaties 


(geacht de volgorde) opleveren. Dus in dit geval is 


‚_ aantal variaties (5—3)! 5-4-3 _ 10 
Ош 3! REI 


Het betreft de volgende 10 rangschikkingen: 
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 


Ter onderscheid met het begrip variatie (mét volgorde) gebruiken we het begrip combinatie, 
wanneer de volgorde binnen een rangschikking er niet toe doet. 
Aldus kunnen we definiëren: 


Definitie 
Voor een groep van k elementen uit een groep van n elementen (0 < k < п) is — wanneer 


de volgorde er niet toe doet, maar alleen de keuze — het aantal van elkaar te onderschei- 
den rangschikkingen (die dan de combinaties worden genoemd) gelijk aan: 


п! 
C? mn 4.15 
Kk klink)! 19) 


C% wordt uitgesproken als ‘C k uit n° = het aantal combinaties van k elementen uit een 


groep van n elementen. Су wordt ook wel binomiaalcoëfficiënt genoemd, met als notatie 


n 

ч, 
Een andere invalshoek om naar binomiaalcoëfficiënten te kijken zullen we illustreren met 
het volgende voorbeeld. 


De vraag ‘op hoeveel manieren kan uit een groep van 5 personen een bestuur van 3 personen 
gekozen worden’ kan vertaald worden naar ‘op hoeveel manieren kan uit een groep van 5 
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personen ееп groepje уап 3 personen worden gekozen (dus 2 niet gekozen)’. Om dit uit te 


213! 
niets anders dan het aantal permutaties van twee verschillende groepen elementen namelijk 


rekenen, gebruiken we de formule voor Pe. == = 10. Het aantal combinaties is dus 


de 3 gekozen personen en de 2 niet-gekozen personen. 
In het volgende voorbeeld laten we een toepassing van het begrip combinaties zien in de 
kansrekening. 


Voorbeeld 19 

Hoe groot is de kans dat een gezin met 4 kinderen 2 jongens (en dus 2 meisjes) telt, 
wanneer we aannemen dat de geboortekans zowel voor een jongen als voor een meisje 
gelijk is aan 5? 


Oplossing 
Gezien de gestelde vraag is het geboortenummer of de leeftijdsvolgorde van de 4 kin- 
deren niet van belang. Alleen het geslacht is van belang. Daarom geldt voor het aantal 


manieren waarop een gezin met 4 kinderen 2 jongens (en dus 2 meisjes) kan tellen, dat 
di vum A 
dit gelijk is аап C = — = 6. 
= 212! 
== эн ү | RR 1 И Ь, 
Alle 6 de volgordes zijn even waarschijnlijk met kans 5:35:55 = тє (Speciale productre- 
gel) en sluiten elkaars optreden uit. De somregel voor elkaar uitsluitende gebeurtenissen 


mag daarom toegepast worden. De gevraagde kans is dus: P(2 jongens en 2 meisjes) = 


4.7 Het oplossen van kansvraagstukken 


Het oplossen van kansvraagstukken en van statistische problemen, waarbij de theorie van 
de kansrekening moet worden toegepast, is in het algemeen niet eenvoudig. Dit komt om- 
dat het vaak niet direct duidelijk is welke rekenregel moet worden toegepast. We zullen 
daarom enkele aanwijzingen geven waarmee het oplossen van kansvraagstukken enigszins 
gesystematiseerd kan worden en daardoor eenvoudiger wordt: 

1. Iser sprake van een ‘én’-situatie, dat wil zeggen wordt er gevraagd naar de kans dat zich 
de gebeurtenis Kı ёп de gebeurtenis Кә zullen voordoen, dan moet een productregel 
worden toegepast. Vaak is het zo dat het woordje ‘en’ verdekt aanwezig is. Wanneer 
bijvoorbeeld gevraagd wordt naar de kans dat in een steekproef van 5 willekeurige 
personen er twee vrouwen zijn, dan wordt in feite bedoeld: twee vrouwen én drie 
mannen. 

2. Is eenmaal vastgesteld dat een der productregels moet worden toegepast, ga dan na of 
de gebeurtenissen wel of niet onafhankelijk zijn. Zijn ze onafhankelijk, gebruik dan 
de speciale productregel; zijn ze afhankelijk, gebruik dan de algemene productregel. 
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Bij steekproeven met teruglegging is sprake van onafhankelijkheid, bij steekproeven 
zonder teruglegging is daarentegen sprake van afhankelijkheid. Ga dit na! 

Is er sprake van een ‘óf’-situatie, dat wil zeggen wordt er gevraagd naar de kans dat 
zich de gebeurtenis Kı óf de gebeurtenis Кэ zal voordoen, dan moet een optelregel 
worden toegepast. Soms is niet direct duidelijk dat het om een óf-situatie gaat. Wanneer 
bijvoorbeeld gevraagd wordt de kans om in een steekproef van 10 stuks hoogstens 2 
producten met het predikaat “van slechte kwaliteit’ aan te treffen, is er sprake van een 
Òf-situatie. De vraag houdt namelijk in: О of 1 of 2 producten van slechte kwaliteit. 
Merk op dat hier ook nog eens het woordje ‘en’ in verstopt zit. Immers, bijvoorbeeld 
2 slechte producten betekent in feite 2 slechte én 8 goede producten. 

Heeft men eenmaal vastgesteld dat een optelregel moet worden toegepast, ga dan na of 
de gebeurtenissen elkaar wel of niet uitsluiten. Sluiten ze elkaars optreden uit (óf de 
ene, óf de andere, maar niet allebei tegelijk) gebruik dan de speciale optelregel. Sluiten 
ze elkaars optreden niet uit (ze kunnen tegelijk optreden) gebruik dan de algemene 
optelregel. In de praktijk zullen we vaker te maken hebben met elkaar uitsluitende 
gebeurtenissen. Een eenvoudig voorbeeld: wanneer gevraagd wordt naar de kans om 
hoogstens twee slechte producten in een steekproef van 5 producten aan te treffen, 
wordt bedoeld de elkaar uitsluitende gebeurtenissen 0, 1 of 2 slechte producten. 

Het verdient aanbeveling bij elk kansvraagstuk na te gaan of het besparing van reken- 
werk kan opleveren door de complementregel toe te passen. Het is vaak een kwestie van 
intuïtie of men daartoe besluit. Soms ligt het duidelijk voor de hand. Wanneer bijvoor- 
beeld gevraagd wordt naar de kans om in een steekproef van 50 producten meer dan 
1 slecht product aan te treffen, kan men deze kans het beste met de complementregel 
uitrekenen: "meer dan 1’ heeft als complement ‘hoogstens 1’, dus О of 1. 

Indien er sprake is van m x n gebeurtenissen van m verschillende kenmerken met n 
verschillende kenmerken, is het handig om een m x n-tabel te maken (zie voorbeeld 
13). 

Met combinatoriek (permutaties, variaties en combinaties) kan in veel gevallen het tel- 
werk vergemakkelijkt worden. Wanneer het aantal (elkaar uitsluitende) mogelijkheden 
moet worden berekend, kunnen vaak de formules (4.14 ) of (4.15) worden toegepast. 
Op de begrippen uit de combinatoriek komen we in het volgende hoofdstuk uitvoerig 
terug (zie bij binomiale kansverdeling en hypergeometrische kansverdeling). 

Soms is het handig om een kansboom te maken. We geven een voorbeeld. Er wordt 
driemaal geworpen met een onzuivere munt. De kans dat ‘kop’ verschijnt is 3 en de 
kans dat ‘munt’ verschijnt is d Alle mogelijke gebeurtenissen kunnen met de bijbeho- 
rende kansen in een kansboom worden weergegeven. 


Uit de kansboom kunnen we bijvoorbeeld opmaken dat de kans dat er in drie worpen 
twee maal ‘kop’ (dus éénmaal “munt’) verschijnt, gelijk is aan de som van de kansen 
Р(Ку N Ко N Мз) , РОКІ N М П Кз) en Р(М| N Kon K3), dus 42. 
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С) Р(МММ)=1/27 


Р(ММК)=2/27 











Р(К)=2/3 


Р(МКМ)=2/27 






Р(М)=1/3 


Р(М)=1/3 Р(К)=2/3 
| | | | Р(МКК)=4/27 
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Р(КММ)=2/27 


Р(КМК)=4/27 


Р(ККМ)=4/27 





Р(ККК)=8/27 


Fig. 4.6 Een kansboom 


Opgaven 


1. Een groep van tien mensen is als volgt samengesteld: 


persoon Wer 3 4 5 6 7 S 9 10 
geslacht M V MSV V м V V M У 
leeftijd 31 44 56 34 22 67 42 23 51 46 


М 


aantal kinderen 0 2 3 ‘І 0 0 0 2 3 


Uit deze groep wordt aselect (dus volkomen willekeurig) iemand op basis van de ken- 
merken geslacht (M/V), leeftijd (50 of ouder/ onder de 50) en op het hebben van kin- 
deren (wel/geen) geselecteerd. 
a. Bepaal: 

— P(M) 

— Р(50 of ouder) 

— P(wel kinderen) 

— P(M |wel kinderen) 










































76 hoofdstuk 4 Kansrekening 





— P(wel kinderen| M) 
— P(V |onder de 50) 
— P(onder de 50| V) 


Pas, indien mogelijk, de kansregels toe op de volgende vragen. 


b. Hoe groot is de kans dat de geselecteerde persoon een man is zonder kinderen? 

c. Wanneer gegeven is dat de geselecteerde persoon een man is, hoe groot is dan de 
kans dat hij boven de 50 is én kinderen heeft? 

d. Hoe groot is de kans dat de geselecteerde persoon een vrouw is, óf iemand van 
boven de 50? | 
Er worden nu twee personen geselecteerd. 

е. Ное groot is de kans dat beide personen man zijn? 


= 
е 


Ное groot is de kans dat ееп van de personen man is? 
g. Hoe groot is de kans dat beide personen zowel boven de 50 zijn als kinderen heb- 
ben? | 


2. Er wordt met drie zuivere dobbelstenen gegooid. 
a. Hoe groot is de kans om in totaal minstens 5 ogen te gooien? 
b. Hoe groot 15 de kans om tweemaal een zes (dus eenmaal geen zes) te gooien? 


3. Men gooit met twee zuivere dobbelstenen en bepaalt de som A en het product B van de 
beide aantallen ogen. | 
a. Hoe groot is de kans dat A groter is dan 7? 
b. Hoe groot is de kans dat B oneven is? 
c. Hoe groot is de kans dat A groter dan 7 en B oneven is? 
d. Hoe groot is de kans dat A groter dan 7 of B oneven is? ' 


4. Men trekt zonder teruglegging twee kaarten uit een volledig kaartspel. 
a. Hoe groot is de kans op twee harten? 
b. Hoe groot is de kans op een harten en een schoppen? 
c. Hoe groot is de kans op twee harten of twee ruiten? 


5. Op grond van het verleden verwacht iemand dat er een kans van 70% bestaat dat de 
AEX-index volgend jaar zal stijgen en een kans van 25% dat de AEX-index zal dalen 
(er is dus een kans van 5% dat de AEX-index gelijk blijft). Verwacht wordt (ook op 
grond van het verleden) dat de aandelenkoers van de firma Y met een kans van 80% zal 
stijgen, als de AEX-index stijgt. Als de AEX-index gelijk blijft, wordt verwacht dat de 
aandelenkoers van firma Y met een kans van 50% zal stijgen, met een kans van 30% 
gelijk blijft (en dus met een kans van 20% zal dalen). En als de AEX-index volgend 
jaar daalt, wordt verwacht dat de aandelen van firma Y met een kans van 80% in waarde 
zullen dalen, met een kans van 10% in waarde zullen stijgen (en dus met een kans van 
10% gelijk blijven). 
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Wat is de kans dat de aandelenkoers van firma Y volgend jaar zal stijgen”? 


Een machine produceert een bepaald type kogellagers. Uit ervaring is bekend dat in 8 
van de 10 gevallen de machine goed is ingesteld. Wanneer de machine goed is afgesteld, 
wordt 90% correct gefabriceerd. Wanneer de machine niet juist 15 afgesteld, wordt 30% 
van de kogellagers niet correct geproduceerd. 
a. Hoe groot is de kans dat een kogellager correct wordt gefabriceerd? 
Na een zekere set-up wordt de eerste geproduceerde kogellager correct gefabri- 
ceerd. ` 
р. Ное groot is de voorwaardelijke kans dat de machine goed was afgesteld”? 


Een interviewbureau wordt ingeschakeld om een bepaald product telefonisch te promo- 
ten. De doelgroep bestaat uit personen van 40 jaar en ouder, die gemiddeld meer dan 
3 uur per dag naar de televisie kijken. Bekend is dat de populatie telefoonbeantwoor- 
ders voor 60% uit personen van 40 jaar en ouder bestaat. Ook 15 bekend dat 20% van 
de telefoonbeantwoorders gemiddeld meer dan 3 uur per dag naar de televisie kijkt. 
Hoeveel mensen moeten worden opgebeld om te bereiken dat naar verwachting van de 
doelgroep minstens 1000 personen worden bereikt? Neem aan dat de leeftijd en het 
aantal uren per dag televisie kijken geen invloed op elkaar hebben. 


In een ijzerwarenfabriek staan drie machines (A, B en С), elk goed voor respectievelijk 

20%, 30% en 50% van de totale schroevenproductie. Van de productie van machine A 

voldoet 3% niet aan de gestelde kwaliteitsnormen; voor machine B is dit 5% en voor 

machine C 10%. Uit de totale productie wordt willekeurig een schroef genomen. 

a. Hoe groot is de kans dat de schroef niet aan de gestelde kwaliteitseis voldoet? 

b. De schroef blijkt niet aan de gestelde kwaliteitsnorm te voldoen. Hoe groot is de 
kans dat de schroef door machine C vervaardigd is? 


In de wielersport gebruikt 10% van de topsporters doping. Wanneer iemand doping ge- 

bruikt heeft, wordt dit in 95% van de gevallen bij een dopingcontrole ontdekt (positief). 

Maar wanneer iemand geen doping heeft gebruikt, geeft de dopingcontrole slechts in 

92% van de gevallen een correcte uitslag. 

a. Wat is de kans dat een willekeurige wielrenner doping gebruikt en ook positief 
bevonden wordt? 

b. Hoe groot is de kans dat bij de dopingcontrole een willekeurige wielrenner positief 
bevonden wordt? 

c. Een wielrenner wordt positief bevonden. Hoe groot is de kans dat hij toch geen 
doping heeft gebruikt? 
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10. De schutters Aad, Ben en Chris hebben een verschillend scoringspercentage: Aad 
schiet 7 van de 10 keer in de roos, Ben 5 keer van de 10 keer en Chris 9 van de 10 
keer. Aad, Ben en Chris zijn aan het trainen. Maar Aad schiet 2 keer zoveel als Ben en 
3 keer zoveel als Chris. 

a. Hoe groot is de kans dat een willekeurig schot de roos treft? 
b. Een schot treft de roos. Hoe groot is de kans dat het schot van Aad afkomstig is? 


11. Van de 1500 tv-apparaten die in een jaar tijd in het servicecentrum van de firma So- 
nata ter reparatie werden aangeboden voordat de garantietermijn van 1 jaar verstreken 
was, is bekend dat er 600 geassembleerd waren in de fabriek te München en 900 in de 
fabriek te Seoel. Na uitgebreid onderzoek bleken de apparaten ofwel door materiaal- 
fouten, ofwel door constructiefouten defect te zijn geraakt en wel volgens onderstaand 


overzicht: 
Seoel München Totaal 
materiaalfout 600 500 1100 
constructiefout 300 100 400 
Totaal 900 600 1500 


а. Wat is de kans dat een willekeurig tv-toestel (uit de 1500 tv-toestellen) een materi- 
aalfout vertoonde? 
Wat is de kans dat een willekeurig tv-toestel in Seoel gefabriceerd werd? 

c. Wat is de kans dat een willekeurig tv-toestel eeń materiaalfout had én in Seoel 
gefabriceerd werd? | 

а. Zijn de gebeurtenissen ‘materiaalfout’ en ‘in Seoel gefabriceerd’ onafhankelijk of 
niet? 

e. Wat is de kans dat een toestel met een materiaalfout in Seoel werd gefabriceerd? 
Bereken deze kans op twee manieren: direct uit de tabel en met behulp van de 
kansregels. 


12. Een projectgroep bestaat uit 8 personen: 6 mannen en 2 vrouwen. 
a. Op hoeveel manieren kunnen een voorzitter en een secretaris gekozen worden? 
b. Op hoeveel manieren kunnen een voorzitter en een secretaris gekozen worden on- 
der de voorwaarde dat ze niet van hetzelfde geslacht zijn? 
c. Op hoeveel manieren kunnen een voorzitter en een secretaris gekozen worden on- 
der de voorwaarde dat de voorzitter vrouw is en de secretaris man? 


13. a. Op hoeveel manieren kan men uit de cijfers 1, 2, 3, 3, 4, 4, 5 een getal van zeven 
cijfers maken? 

b. Op hoeveel manieren kan met de letters van het woord ABACADABRA een letter- 

combinatie gemaakt worden van 10 letters? 
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14. 


15. 


'16. 


‚17. 


18. 


19. 


20. 





De play-offs уап de nationale basketbalcompetitie worden gespeeld in twee poules уап 
elk 4 teams. De nummers 1 en 2 van beide poules spelen met elkaar in een finalepoule 
van 4 teams. De nummers 1, 2 en 3 uit de finalepoule krijgen een medaille (goud, 
zilver, brons). Hoeveel mogelijke rangschikkingen zijn er voor de medaillewinnaars? 


Bij de lotto worden uit 45 balletjes, genummerd van 1 t/m 45, er 6 getrokken. Hoe groot 
is de kans dat iemand alle nummers goed raadt? En hoe groot is de kans dat iemand 5 
nummers goed raadt? 

Hoe groot is de kans dat iemand bij een multiple-choice test van 10 vragen met elk 
3 mogelijke antwoorden op goed geluk precies 3 goede antwoorden (dus 7 foute ant- 
woorden) aankruist? 


In een kroeg zitten 20 stamgasten. Hoe groot is de kans dat 2 of meer stamgasten op 


dezelfde dag jarig zijn? Tip: Bereken deze kans met behulp van de complementregel. 


In een grote partij producten zitten 5% defecte exemplaren. Iemand neemt een steek- 
proef van 10 producten. | 
a. Hoe groot is de kans dat er geen defecte exemplaren bij zitten? 

b. Hoe groot is de kans dat er hoogstens 1 defect exemplaar bij zit? 


‘с. Ное groot is de kans dat er meer dan 2 defecte exemplaren bij zitten? 


In een productieserie van 20 producten zitten 6 defecte exemplaren. lemand neemt uit 
deze serie een steekproef van 5 producten. 

a. Hoe groot is de kans dat er geen defecte exemplaren bij zitten? 

b. Hoe groot is de kans dat er hoogstens 1 defect exemplaar bij zit? 

с. Ное groot is de kans dat er meer dan 2 defecte exemplaren bij zitten? 


Bij een onderzoek naar het aantal pogingen dat men nodig heeft om het praktisch rij- 

examen te halen, 15 naar voren gekomen dat 30% het examen in één keer haalt, 20% 

het de tweede keer haalt, 10% succes bij de derde poging heeft en de rest meer dan 3 

pogingen nodig heeft. Een groep van 4 vrienden wil het praktisch rijexamen halen. 

a. Hoe groot is de kans dat alle vier in één keer slagen? 

b. Hoe groot is de kans dat één vriend het examen in één keer haalt, één het examen 
in twee keer haalt, één het in drie keer en één in meer dan drie keer? 

c. Hoe groot is de kans dat twee vrienden het examen in één keer halen en de andere 
twee in meer dan één keer? 












Discrete ` 
kansverdelingen 


5.1 Inleiding 


In hoofdstuk 3 hebben we een aantal begrippen uit de beschrijvende statistiek besproken. 
Zo kan men een reeks van waarnemingsuitkomsten karakteriseren door een maatstaf voor 
de ligging (bijvoorbeeld rekenkundig gemiddelde) en een maatstaf voor de spreiding (onder 
andere variantie). Verder hebben we de waarnemingsuitkomsten overzichtelijk weergege- 
ven door middel van een frequentietabel. In hoofdstuk 4 hebben we kennisgemaakt met 
allerlei situaties, waarbij het toeval (=kans) een belangrijke rol speelt. In dit hoofdstuk gaan 
we nu de begrippen uit de beschrijvende statistiek ook toepassen op die situaties waarbij 
toeval een rol speelt. We spreken van een kansverdeling indien bij een ‘kansexperiment’ 
de mogelijke gebeurtenissen met betrekking tot een bepaald kenmerk met de bijbehorende 
kansen kunnen worden genoteerd. Zoals in hoofdstuk 2 reeds is opgemerkt, noemt men het 
kenmerk waarop de kansen betrekking hebben een kansvariabele. De waarde of uitkomst 
van het kenmerk hangt immers van het toeval af. De kansverdeling behorend bij een be- 
paalde kansvariabele is vergelijkbaar met een frequentietabel, waar de gemeten uitkomsten 
en de bijbehorende frequentie zijn opgeschreven. Net als een frequentieverdeling kan een 
kansverdeling gekarakteriseerd worden door parameters voor de ligging en de spreiding. 
Als parameter voor de ligging wordt bijna altijd de verwachting of de verwachtingswaarde 
(= gemiddelde) gebruikt. Voor de spreiding gebruiken we bij kansverdelingen net als bij 
frequentieverdelingen de begrippen variantie en standaardafwijking. 

We onderscheiden twee typen kansverdelingen, namelijk de discrete en de continue kans- 
verdeling. Een discrete kansverdeling ontstaat als de kansvariabele discreet (oftewel dis- 
continu) is. Dit is bijvoorbeeld het geval als de uitkomst van een gebeurtenis (of kansex- 
periment) is te tellen (bijvoorbeeld het aantal foutieve exemplaren in een bepaalde partij, 
het aantal ongelukken op een bepaalde plaats, het aantal ziektegevallen, enzovoorts). In dit 
hoofdstuk bespreken we de voor de dagelijkse praktijk belangrijkste discrete kansverdelin- 
gen, zoals de binomiale verdeling en de Poisson-verdeling. 
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Een continue kansverdeling ontstaat als de te meten variabele continu is (bijvoorbeeld 
lengte, gewicht, concentratie of temperatuur). De verreweg belangrijkste continue kans- 
verdeling is de normale verdeling; hierop gaan we in hoofdstuk 6 verder in. 


5.2 Discrete kansverdeling 


Zoals we in de inleiding al hebben gezien, zijn er twee typen van kansverdelingen, één 
waarbij de kansvariabele discreet (discontinu) is en één waarbij de kansvariabele continu is. 
In deze paragraaf beginnen we met een voorbeeld van een discrete kansverdeling. 


Voorbeeld 1 

We gooien met twee dobbelsteen en definiëren de kansvariabele K = som van het aan- 
tal ogen dat geworpen wordt. Alle mogelijke uitkomsten k van dit experiment kunnen 
we opschrijven met de erbij behorende kans. We krijgen dan de kansverdeling van de 
kansvariabele К. 


Tabel 5.1 Mogelijke waarden van K=som van het aantal ogen 


dobbelsteen 1 


dobbelsteen 2 
© л A шә N m 





Uit de tabel Кап men afleiden dat de kansvariabele К in totaal 36 uitkomsten heeft, die 
echter niet allemaal verschillend zijn. De uitkomst 2 komt slechts één keer voor, de kans 
op de uitkomst 2 in dit experiment is dus 36: Dit schrijven we als volgt: P(K = 2) = $. 
De kans op de uitkomst van bijvoorbeeld 7, die 6 keer voorkomt, is dus P(K = 7) = EN 
In dit voorbeeld zien we dat de kansvariabele К alleen gehele waarden kan aannemen, 
de kansverdeling van К is dus een discrete kansverdeling . 


De kansverdeling van К is: 


k [2 3 4 5 6 7 8 9 ши 12} у 
"e 1 2 3 4 5 6 5 4 3 2 1 36 ` 
BE —Dle Zë B ZG HB ze HB % 3 |=! 
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Opmerking 

Meestal gebruikt men voor een discrete kansvariabele het symbool K en voor een con- 
tinue kansvariabele het symbool X. Zoals in hoofdstuk 2 reeds is opgemerkt, wordt met 
K en X de naam van de variabele bedoeld. De naam van een variabele schrijven we 
altijd met een hoofdletter. Met k en x bedoelen we de waarde van de variabele, geschre- 
ven met een kleine letter. Verder voeren we het symbool f(x) respectievelijk f(k) in, 
dat in wiskunde bekend staat als ‘functie van x, respectievelijk k’. In de kansrekening 
spreken we echter van kansfunctie f(k) als К een discrete kansvariabele is en van een 
kansdichtheid f(x) als X een continue kansvariabele 15. 


Definitie 
Voor de kansfunctie van een discrete kansvariabele geldt dat: f(k) = P(K = k), voor 
iedere waarde К, die K kan aannemen. 


In voorbeeld 1 is dus: f(k) = Р(К = 12) = t. 
De kansfunctie geeft de individuele kansen per gebeurtenis aan. 
Verder kennen we in de kansrekening nog het begrip verdelingsfunctie. 
De verdelingsfunctie уап K wordt weergegeven door het symbool F (k). 
Voor een discrete kansvariabele K verstaan we onder F (k): 
‘De kans op de gebeurtenis dat K kleiner of gelijk is aan de waarde К. 
In voorbeeld 1 is: 
Fra PIK & 2) e 
PK =2)+ P(K =3)+ P(K =4)+ Р(К = 5) = з + 9 + з + 36 = Aë 
De verdelingsfunctie F (k) is dus op te vatten als de cumulatieve kanscumulatieve kans van 
de kansvariabele К. 
Definitie 
Voor een discrete kansvariabele K geldt dat de verdelingsfunctie F(k) gelijk is aan: 
ЕК = PIK Sk) Уу PIK =)= У JU) waarbij 


(zk i<k 
— f(i) > 0, voor elke i 
= B fl 


alle i 


De (kans)verdelingsfunctie van voorbeeld 1 is: 


k |12 3 4 5 6 7 8 9 10 11 12 
1 3 б 10 15 21 2 30 33 35 36 __ 
FW | e A AS B B Se e HB 361 


Voorbeeld 2 
We gooien met een zuivere munt en definiëren K als het aantal pogingen totdat voor de 
eerste keer munt wordt gegooid. Dus Р(К = 1) betekent de kans dat bij de eerste worp 
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munt wordt gegooid. P(K = 2) geeft de kans aan dat bij eerste worp kop is gegooid 
en bij de tweede worp munt, enzovoorts. Doordat kop en munt bij een zuiver muntstuk 
dezelfde kans hebben en de pogingen onafhankelijk zijn, geldt: 

P(K = 1) = 1, Р(К =2)= 4.4 = 4, Р(К = 3) = 5:2: 5 = эт, enzovoorts. 


22» 
| 
De kansfunctie voor dit experiment is: f(k) = DE Din sa gn Do е), 


De waarde van bijvoorbeeld F(3) is: 


rk "ak? 


3 31 
Е(3) = Р(К < 3) = A fO= У z 02 "23 


] 
Gel ст” 4 


Uit de definitie van de de verdelingsfunctie F (k) kunnen de volgende eigenschappen wor- 
den afgeleid: 


Eigenschap 1 

De verdelingsfunctie 15 een niet-dalende functie. Daar f (К) > 0 voor elke k, zal bij het 
toenemen уап k de verdelingsfunctie F (k) = у, TU) ook alleen maar toenemen of 
gelijk blijven (in elk geval niet afnemen). ` =“ 


Eigenschap 2 
Jm F(k) = 1 (maar meestal is de grootst mogelijke waarde van k gelijk aan de steek- 
ee 


proef grootte л) 


Eigenschap 3 
А lim F(k) = О (maar meestal is de kleinst mogelijke waarde van k gelijk aan 0) 
„ыы 


5.3 Parameters van een (discrete) kansverdeling 


Zoals in de inleiding van dit hoofdstuk is gezegd, kan een kansverdeling net als een fre- 
quentieverdeling worden gekarakteriseerd door parameters. De bekendste parameter is de 
verwachtingswaarde (ofwel het gemiddelde) van de kansverdeling. 


5.3.1 Verwachtingswaarde van een discrete kansverdeling 

In hoofdstuk 3 hebben we het begrip verwachtingswaarde al even toegelicht. In deze para- 
graaf zullen we wat dieper op de betekenis van verwachtingswaarde (kortweg verwachting) 
ingaan. Dit doen we aan de hand van een eenvoudig voorbeeld. 


Voorbeeld 3 

In een café wordt het volgende spel gespeeld. Een bargast zet een bepaald bedrag in. 
Een muntstuk wordt opgegooid en de caféhouder betaalt de bargast 10 eurocent als er 
kop wordt gegooid en 20 eurocent als er munt wordt gegooid. De caféhouder houdt het 
muntstuk om het spel steeds met hetzelfde muntstuk te kunnen spelen. ledere keer is de 
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inzet dezelfde. Hoe hoog moet de inzet zijn zodat de caféhouder niet kan worden beticht 
van uitzuigerij, maar er ook geen reden is dat hij failliet gaat? Met andere woorden: wat 
moet de inzet zijn opdat er sprake is van een ‘eerlijk’ spel? 


Oplossing 

Als het experiment een groot aantal keren wordt gespeeld, zal op den duur in ongeveer 
de helft van het aantal worpen kop vallen en in de andere helft van de gevallen munt. Dit 
gaat op als het muntstuk zuiver is. 

Wordt het spelletje N keer uitgevoerd, dan zal de caféhouder moeten uitkeren: 

5 х0,10+5- x 0,20 = 5 х 0,30 = N х 0,15 

Om over een lange periode precies quitte te spelen, zal de caféhouder een inzet van 
0,15 eurocent moeten vragen. De gemiddeld te verwachten betaling op de lange duur is 
namelijk 5 · 0,10 + 5 - 0,20 = 0,15. 


Het gemiddelde op de lange duur noemt men nu de verwachtingswaarde of verwachting 


(Engels: mathematical expectation, kortweg expectation met als schrijfwijze Е). 


Voorbeeld 4 

Bij een bepaalde loterij is de kans op een prijs van 5000 euro gelijk aan 0,01%. De kans 
van op een prijs van 2000 euro is gelijk aan 0,05%. Bepaal de verwachtingswaarde van 
het te winnen bedrag. 


Oplossing 
De verwachtingswaarde van het te winnen bedrag is: 
EC winst’) = 0,0001 - 5000 + 0,0005 · 2000 = 1,50 euro. 


We kunnen nu definiëren: 


Definitie 
Stel dat К een discrete kansvariabele is, die de waarden А, ko... kn kan aannemen met 
n 
respectievelijk de kansen pi, p2, ..., Pn, waarbij 3 pi = 1. Dan is de verwachtings- 
Gs 
n 
waarde van К gelijk аап 3 piki. 


i=] 


n 
In formulevorm: E(K) = 3 piki of (met p; = f (ki), de kansfunctie) 


[к=] 


Е(Ку=) bf) (5.1) 


i=l 
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Soms schrijft menu in plaats van E(K). De verwachtingswaarde is te beschouwen als het 
gewogen gemiddelde van alle uitkomsten. Als wegingsfactor voor de uitkomst Ё; in dit 
gewogen gemiddelde functioneert de kans(functie) p; = f (ki). 


Voorbeeld 5 

Jan en Henk spelen een dobbelspel. Jan gooit met een dobbelsteen. Henk keert daarbij 
de volgende bedragen uit: 

10 eurocent bij een 1 of een 2 

20 eurocent bij een 3 of een 4 

40 eurocent bij een 5 

80 eurocent bij een 6 

Hoe groot is de winst(verwachting) van Jan? 


Oplossing 
Als K de ‘uitbetaling’ is, dan is Р(К = 10) = £, Р(К = 20) = 2, P(K = 40) = 1 en 
Р(К = 80) = 5. 


De winstverwachting van Jan is: 
EIK) = 10. +20. +40: 1 +80. ` = 180 — 30 eurocent. 


In voorbeeld 5 kunnen we de gebeurtenis K ook definiëren als ‘Het ogental bij een worp 
met een dobbelsteen’. Verder beschouwen we de kansvariabele L, welke de ‘verdiensten’ 
aangeeft van Jan. Deze verdiensten zijn een functie van K, aangegeven door g(K), met de 
volgende kansverdeling: 


K | 2 3 4 5 6 
L=g(K) 10 10 20 20 40 80 


De verwachtingswaarde van K hangt af van de functie g van К; dit noteren we als E{e(K)}, 
waarbij geldt: 
E{g(K)}= У g(ki)- pi of, anders geschreven, E{g(K)}= У g(ki)- f (kj), waarin f 


alle i alle 
de kansfunctie is van К en р; = f (ki). 


Bij uitwerking ontstaat hetzelfde antwoord als hierboven gegeven. 


Opdracht 
Ga dit na, door de berekening voor voorbeeld 5 uit te voeren. 


We kunnen nu ook de verwachting van L? = {0(К)}? bepalen. Volgens de gegeven definitie 
(formule (5.1) is: 


E{g(K)} = У gk)? pi = У) L?- pi 


alle ¿i alle i 
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Uitgewerkt voor voorbeeld 5 krijgen we: 


L? = g(k)? 100 100 400 400 1600 6400 


| І 1 | 1 l 
pi 6 6 6 5 6 б 
Daaruit volgt: 
E{g8(K)}? = 100. 2 + 400. 2 + 1600. + 6400. 2 = 299 = 1500 (eurocent)? 


Eigenschappen van de verwachtingswaarde van een discrete kansverdeling 
We gaan een aantal belangrijke eigenschappen van de verwachtingswaarde van een discrete 
kansvariabele behandelen. De bewijzen van deze eigenschappen laten we achterwege. 


Eigenschap 4 

De verwachtingswaarde is een zogenaamde lineaire operator, dat wil zeggen als a en b 
constante getallen zijn, dan geldt: 

L ЕК а) = ЕСК) Ha 

2, BOK) = ре EK) 

3. Е(К +a)=b-E(K) +а 


Opmerking 
De derde eigenschap is een samentrekking van de eerste twee. 


Voorbeeld 6 

Stel K kan de waarden 3, 4 en 5 aannemen met respectievelijk de kansen 0,1; 0,3 en 0,6. 
De verwachtingswaarde van 6K + 2 verkrijgen we door eerst E(K) te berekenen: 
Е(К) =0,1-3 +0,3-4+0,6- 5 = 4,5 

Е(6К +2) = 6Е(К) +2=6-4,5+2=29 


Opdracht 

Onderzoek het antwoord іп voorbeeld 6 door de waarden 3, 4 en 5 te vermenigvuldigen met 
6 en bij de verkregen uitkomsten 2 op te tellen. Bepaal van deze drie nieuwe waarden de 
verwachtingswaarde. 


Eigenschap 5 
Indien g(K) een functie is уап К, geldt: 
E{b-g(K)+a}=b. Е{2(К)} +а 


Voorbeeld 7 

Stel dat К de waarden 1, 2 en 3 kan aannemen. Stel verder dat de kans in alle drie de 
gevallen gelijk is aan d De verwachtingswaarde van З К 2 +4 wordt als volgt gevonden: 
EGK? +4) = ЗЕ(К?) +4 = 3(13:1 623.1 633.1) +4=34 HEt 28) +4 = 40 
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Eigenschap 6 
Zijn K en L twee discrete kansvariabelen, dan geldt voor hun som Z: 


ECA) к= BOK HL) =S ELK) + ELL) (5.2) 


Voorbeeld 8 

K kan de waarden 3 en 4 aannemen, met respectievelijk de kansen 0,4 en 0,6. L kan 
de waarden 3, 4 en 6 aannemen, met respectievelijk de kansen 0,45 en 0,3 en 0,25. De 
verwachtingswaarde van Z = 3K + 2L is dan: 

E(Z) = E(3K + 2L) = E(3K) + Е(21) =3E(K)+2E(L) 

Е(К) = 04:3 +0,6. 4 = 3,6 

E(L) = 0,45 - 3 + 0,3 - 4 + 0,25 . 6 = 4,05, zodat 

EIZ) = 3+3,0 + 2 А05 = 18,9 


5.3.2 De variantie van ееп discrete kansvariabele 
De mate van spreiding van de mogelijke waarden van een kansvariabele К ten opzichte van 
de verwachtingswaarde E(K) wordt weergegeven door de variantie. 


Voor de variantie van K worden de volgende schrijfwijzen gebruikt: var(K), о2(К) of 
2 


Ok: 
Definitie 
De variantie van K is de verwachtingswaarde van het kwadraat van de afwijkingen van 
К ten opzichte van E(K). De definitie van de variantie kunnen we als volgt weergeven: 


var(K) = E{K — Е(К)} (5.3) 
of na herleiding tot een andere schrijf wijze: 
var(K) = Е(К?) – {Е(К)}? (5.3a) 


Op de afleiding van de herleiding van formule (5.3) naar formule (5.3a) gaan we niet in. 
Wel zij opgemerkt dat deze eigenschap reeds genoemd is aan het eind van hoofdstuk 3 (zie 
formule 3.12). 

Gezien de definitie van de verwachting is de variantie van een discrete kansvariabele volgens 
formule (5.3) een gewogen gemiddelde van de kwadratische afwijkingen van de mogelijke 
uitkomsten ten opzichte van de verwachtingswaarde. Als weegfactoren fungeren de kansen 
op de verschillende uitkomsten Ё;. 

var(K) = e pi{(ki — E(K) of (па herleiding) var(K) = y pik? — {Е(К)}?. Naar 
analogie oun geg (5.1), waarin p; vervangen is door de 0 РЕ f(k;) kunnen we 
schrijven: 
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var(K) = У РК) —E(K)Y (5.4) 
besl 
= ) fk) – (ЕСК) (5.4а) 


Ё] 


Voorbeeld 9 
De discrete kansvariabele K kan de waarden 4, 5 en 6 aannemen, met respectievelijk de 
kansen 0,4; 0,2 en 0,4. De variantie van K wordt als volgt berekend: 


һ РК) LG fk fh) KH 


+ 0,4 1,6 6,4 
5 0,2 1,0 5,0 
6 0,4 2,4 14,4 
3 1,0 5,0 25,8 


Е(К) = dk; - f (ki) = 5,0 zodat volgens formule (5.4а) 
var(K) = 25,8 — (5,0)? = 25,8 — 25,0 = 0,8 


Opdracht 
Controleer dit resultaat door ook formule (5.4) toe te passen. 


Zoals bekend (zie hoofdstuk 3) kennen we naast de variantie nog een tweede spreidings- 
maat, де standaardafwijking, die veelvuldig wordt gebruikt om de spreiding уап een kans- 
variabele weer te geven. 

De standaardafwijking 15 de wortel uit de variantie. In formulevorm geldt dus 


ск = Vvar(K) = ./ Е(К2) — {E(K)}? 


Voorbeeld 10 
De standaardafwijking van de kansvariabele in voorbeeld 9 is: 
ok = var(K) = V0,8 = 0,9 


5.4 Theoretische discrete kansverdelingen 


In de volgende subparagrafen bespreken we een aantal discrete kansverdelingen, die voor 
de praktijk erg belangrijk zijn. Daarbij onderscheiden wij: 
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— de binomiale verdeling 
— de hypergeometrische verdeling 
— de Poisson-verdeling 


We zullen in de komende paragrafen deze verdelingen behandelen. 


5.4.1 De binomiale verdeling 

Ter inleiding van de binomiale verdeling doen we het volgende experiment: 

we werpen met drie zuivere dobbelstenen en beschouwen de gebeurtenis: "de dobbelsteen 
heeft vier ogen boven’. 

Ten aanzien van een dobbelsteen kunnen we in dit geval twee kenmerken onderscheiden: 
a. ееп dobbelsteen heeft vier ogen boven; 

D ееп dobbelsteen heeft geen vier ogen boven. 

We definiëren nu: К 15 ‘het aantal stenen met vier ogen boven’. 

De kansvariabele K kan de waarden О, 1, 2 of 3 aannemen, want met drie dobbelstenen kan 
men 0, 1, 2 of 3 ‘vieren’ gooien. 


P(K = 3), dus de kans dat alle drie dobbelstenen een vier opleveren, is: 


3 
Р(К = 3) = 4:1:1= (1) 


De kans op geen enkele vier, Р(К = 0) is ор dezelfde manier te berekenen: 
3 
PK =0)= 5:2. = (1-1) 


Voor het berekenen van de kans Р(К = 1) is toepassing van alleen de vermenigvuldi- 
gingsregel voor onafhankelijke gebeurtenissen niet voldoende, omdat K = 1 op drie, elkaar 
uitsluitende manieren kan worden gerealiseerd, namelijk: 


mogelijkheid I H Ш kans 


A A 1 5 & 

А ЕЛЫ Ы 
A A з E A 

B + 4 D B 
A A ek ` ZS 3 

C + ZS Ж Bes 


(Een streepje boven de 4 wil zeggen: ‘niet vier’.) 
In hoofdstuk 4 hebben we geleerd dat het aantal combinaties van één vier en (dus) twee 


3 3 1 
‘niet-vieren’ gelijk is аап (2) respectievelijk (5) Anders gezegd: we kunnen op H = 


H = 3 manieren, met drie dobbelstenen, één vier gooien. 


Daar elk van de drie elkaar uitsluitende mogelijkheden A, B en С tot de gunstige gevallen of 
successen behoort, dient de optelregel te worden toegepast. Er moeten drie dezelfde kansen 
worden opgeteld. 
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De kans op één vier, Р(К = 1) is als volgt te berekenen: 


EN un) gen? Ad 2 
C OOA OKR 
Ook voor de uitkomst K = 2 bestaan drie mogelijkheden: 


(4,4, 4), (4, 4, 4) en (4, 4, 4) elk met een kans (5) >, dus: 
мк (3) OLOO) 


Resumerend in tabelvorm: 


k kans anders geschreven uitgerekend 
3 0 3—0 | 
1\3 І 1 __ 125 
o Е: Ju (1—%) ~ 216 


N 
тт. 
— 
| 
Ol 
н Май E 
( LI 
da 
|| 
lo 
TAIGA 


Als controlemiddel tellen we de kansen op en zien dan dat de som van alle kansen zoals 
verwacht 1 is. 

De derde kolom levert de mogelijkheid om te komen tot een algemene schrijfwijze voor de 
berekening van kansen bij dit soort problemen. We voeren daarbij de volgende symbolen 
en omschrijvingen in, met tussen haakjes de situatie in ons experiment: 

n = aantal elementen in een steekproef (aantal dobbelstenen n = 3); 

p = kans op het optreden van een bepaalde gebeurtenis (kans op een vier bij een dobbel- 
steci: p= 5): 

k = aantal elementen in de steekproef waarbij die gebeurtenis optreedt (aantal stenen waar- 
bij een vier bovenkomt). 

De kans dat de discrete kansvariabele K een bepaalde waarde k aanneemt (de kansverdeling 
уап К ) kan nu algemeen worden geschreven als: 


n 


РСК = EI == WI — DF. met К ~ne nend и ] (5.5) 


De kansvariabele К, met bovenstaande kansfunctie, heet een binomiale kansvariabele. 
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Voorbeeld 11 

We werpen vijf keer achter elkaar met een onzuiver muntstuk, waarbij de kans op ‘kop’ 
is p. De kans op munt is dan 1 — p. 

De kans op driemaal kop, dus tweemaal munt, kan als volgt berekend worden: 


a [з 
In een rij уап 5 uitkomsten bestaande uit 3 maal kop en 2 maal munt zijn RH ver- 


schillende volgorden of permutaties mogelijk. De kans op het voorkomen van een rij 
bestaande uit 3 maal kop en 2 maal munt (maar in willekeurige volgorde!) is: 


РОК = 3) = (lc — р)? 


5.4.2 Voorwaarden voor toepassing van de binomiale verdeling 

De binomiale verdeling kan gebruikt worden in de volgende omstandigheden. 

— Bij het nemen van een steekproef uit een eindige populatie. 
Stel dat in een populatie twee kenmerken vertegenwoordigd zijn. Bij een steekproef mét 
teruglegging mag de binomiale verdeling worden toegepast. De kans p (ook wel fractie 
genoemd) om bij een trekking uit de populatie een bepaald kenmerk aan te treffen dat 
in de populatie aanwezig is, is dan namelijk voor iedere trekking hetzelfde. We hebben 
hierbij te maken met onafhankelijke gebeurtenissen. 
Bij steekproeven zónder teruglegging (dus bij afhankelijke gebeurtenissen) mag ook de 
binomiale verdeling worden toegepast, mits de populatieomvang N tenminste 10 maal de 
steekproef grootte (п) 15. Wanneer aan deze vuistregel voldaan is, blijft tijdens het nemen 
van de steekproef de verhouding van het aantal elementen met een bepaald kenmerk en 
het aantal elementen zonder dat kenmerk bij benadering constant. Hoewel we in principe 
met afhankelijkheid te maken hebben, mogen we (mits aan de vuistregel N > 10n 
voldaan is) doen alsof we te maken hebben met onafhankelijkheid. 

— Bij het nemen van steekproeven uit een oneindig grote populatie. 
De kans p op het aantreffen van een bepaald kenmerk is dan sowieso constant. Wanneer 
bijvoorbeeld de voetbaltoto op willekeurige wijze wordt ingevuld, is de kans op een 
goede voorspelling voor iedere wedstrijd gelijk aan І. Het aantal goed voorspelde wed- 
strijden is dus te beschouwen als een steekproef uit een oneindig grote populatie met 
teruglegging. Het aantal ‘successen’ (goed gegokte uitslagen) is binomiaal verdeeld. 


5.4.3 Verwachtingswaarde en variantie van de binomiale verdeling 
De kansfunctie van de binomiale verdeling f (k) = Р(К = k) = MI =p voldoet 


aan de definitie van een kansfunctie. Voor elke waarde van k (k = 0, 1, 2, 3, ..., n) geldt dat 


n 
PIK = к) 2 Оеп ќе bewijzen isdat У P(K =k)=l. 
k=0 
Wanneer een discrete kansvariabele K een op deze kansfunctie gebaseerde verdeling bezit, 


zegt men dat K een binomiale verdeling bezit (of dat K binomiaal verdeeld is), met de 
parameters n en p. 
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Voor het gemiddelde of verwachtingswaarde u = E(K) van een binomiale verdeling, met 
de parameters n en p geldt: 


A = Rep (5.6) 
Voor de variantie o? = var(K), respectievelijk de standaardafwijking o = „/var(K) gel- 
den: 

с^ = п=р-.(1—р) (5.7) 


o = ҹүп:-р:(1- р) (5.8) 


Voorbeeld 12 

Een Multiple-choicetoets bestaat uit 20 vragen met elk vier mogelijke antwoorden, waar- 
van er één goed is. Iemand besluit door willekeurig aan te kruisen (gokken) deze toets 
te maken. Bepaal de verwachtingswaarde en de standaardafwijking van het aantal goed 
gegokte vragen (=successen). 


Oplossing 
Het aantal ‘successen’ K is binomiaal verdeeld omdat p = R constant is voor elke vraag. 


Aangezien п = 20 geldt: E(K) = пр = 2-4} = Seno = т-р-(1—р) = 


20: i . а. De standaardaf wijking is dus , / Е X 1,94. 


5.4.4 De tabel van de binomiale verdeling 
De kansen van een binomiaal verdeelde kansvariabele K kunnen worden berekend met de 
binomiaalformule: 


en n k _ n—k 
Р(К =) = |, pp) (5.9) 


De binomiaalformule (formule (5.9)) is met ееп zakrekenmachine te berekenen, maar ge- 
makkelijker gaat het met een programma als EXCEL (zie Appendix A). Voor het gemak is 
echter achter in dit boek ook een tabel (tabel B2) opgenomen met deze verdeling, althans 
voorn < 10, en enkele veel voorkomende waarden van de fractie р. Wanneer n > 10 kan 
de tabel van de binomiale verdeling niet worden gebruikt. In het volgende hoofdstuk zullen 
we zien dan in dat geval gebruik kan worden gemaakt van een benadering door middel van 
de normale verdeling. In de tabel zijn uitsluitend kansen opgenomen voor fracties p < 


bol 


Opdracht 
1 


Bedenk waarom slechts waarden voor р < 5 getabelleerd zijn, terwijl deze tabel toch ook 


bruikbaar is voor een aantal waarden voor p > l. Bereken vervol gens met behulp van tabel 


B2: P(K = 3) еп P(K < 3) bij een steekproef van 8 stuks uit een populatie met fractie 
p= 0,7. 
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We zullen nu een aantal voorbeelden geven waarin de binomiale verdeling wordt toegepast. 


Voorbeeld 13 
De kans dat een geboren kind een meisje is, bedraagt 0,49. Bereken de kansverdeling 
van het aantal meisjes in een gezin met twee kinderen. 


Oplossing 

Omdat de fractie p = 0,49 constant is, is het aantal meisjes in een gezin van twee (n = 2) 
kinderen binomiaal verdeeld. Tabel B2 kan niet worden toegepast. 

De kans dat onder twee aselect (willekeurig) gekozen geboorten О, 1 of 2 meisjes zijn, is 


respectievelijk: 

k РТК. = К) 
2 0 2 2 

0 al" 049" 0,51“ = 0,51 == 0,2601 
2 1 l І 

2 dl: 0,49" - 0,517 = 2. 0,49 . 0,51 =- 0,4998 
- 2 0 2 | 

3 WS 0,495 . 0,51" = 0,49 = 0,2401 

7, = 1,0000 


Voorbeeld 14 | 

Van een beroepsziekte is bekend dat 10% van de mensen die dit beroep uitoefenen ег 
door wordt aangetast. Wat is de kans dat van 3 nieuw aangenomen personeelsleden in 
dit beroep er hoogstens één de ziekte krijgt? 


Oplossing 

Het aantal personen dat de beroepsziekte krijgt, is binomiaal verdeeld met р = 0,1 en 
п = 3. Tabel B2 kan gebruikt worden: 

Hoogstens één betekent K = О of K = 1. 

De kans hierop is: P(K < 1) = Р(К =0)+P(K=1) - 


к | P(K=k) 
0 0,7290 
1 0,2430 
у) | 0,9720 


De kans dat van 3 nieuwe personeelsleden ег hoogstens één de beroepsziekte krijgt is 
dus: Р(К = 1) = 0,9720. 
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Voorbeeld 15 

Van een machine is bekend dat gemiddeld 8% van de geproduceerde exemplaren gede- 
gradeerd wordt tot tweede keus. Uit de productie wordt nu een aselecte steekproef van 
п = 20 genomen. Wat is de kans dat er in de steekproef meer dan één fout exemplaar 
zit? 


Oplossing 

Het aantal ‘tweede-keus’ exemplaren is binomiaal verdeeld met p = 0,08. Tabel B2 kan 
niet toegepast worden. 

De kans op meer dan één foutief exemplaar Р(К > 2) = 1 — P(K < 1) 

We hebben nu de volgende parameters: n = 20, p = 0,08. 


k Р(К = К) 
20 

0 (75) 008.022 = 0,1887 
20 

| (72) 008! aam = 0,3282 


$ 0,5169 


De kans op meer dan één foutief exemplaar in een steekproef van 20 is dus 
P(K > 1)=1— Р(К < 1) = 1 — 0,5169 = 0,4831 


Voorbeeld 16 
Wat is de kans op 5 foutieve bouten in een aselecte steekproef van 10 bouten, als de kans 
op een foutieve bout 0,20 is? 


Oplossing 

We nemen aan dat de populatie waaruit de steekproef afkomstig is groter is dan 100 (10 
keer de steekproefgrootte). Als K het aantal foutieve bouten voorstelt in een steekproef 
van 10, is K binomiaal verdeeld met n = 10 en p = 0,2. Tabel B2 kan toegepast 
worden: 

Er geldt: Р(К = 5) = 0,0264. 


Voorbeeld 17 
In een zeer grote loterij (veel loten) 15 de prijzenpot zodanig samengesteld dat 30% van 
de loten ‘prijsloten’ zijn. Iemand koopt 20 loten. Wat is de kans dat hij minstens 3 
prijzen krijgt? 


Oplossing 
Als K het aantal prijsloten voorstelt in een partij van 20 loten, is K binomiaal verdeeld 
met п = 20 en р = 0,3. Tabel B2 kan toegepast worden. 7 
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Oplossing voorbeeld 17 (vervolg) 
РОК 2 Аре 14 РК sU + PIE = IF SUE == le РОК S 2) 


P(K = 0) = 0,0008 
Р(К = 1) = 0,0068 
PIK == 2) = 0,0278 


P(K < 2) = 0,0354 


De kans op minstens 3 prijzen is daarom: 
Р(К > 3)=1— P(K < 2) = 1 — 0,0354 = 0,9646. 


5.4.5 De hypergeometrische verdeling 

We hebben gezien dat de binomiale verdeling geldt wanneer er sprake is van een steekproef 
met teruglegging uit een al dan niet eindige populatie. Daarnaast kan de binomiale verde- 
ling worden toegepast bij een steekproef zonder teruglegging uit een populatie die minstens 
10 maal groter is dan de steekproefgrootte. De binomiale verdeling mag dus niet worden 
gebruikt in de situatie dat er sprake is van een steekproef zonder teruglegging uit een po- 
pulatie die kleiner is dan 10 maal de steekproefomvang. In dit geval is de parameter p niet 
constant voor elke gebeurtenis. De kansverdeling die nu in beeld komt is de hypergeometri- 
sche kansverdeling. Bij de hypergeometrische kansverdeling gaat men uit van een eindige 
populatie, waaruit een steekproef wordt getrokken zonder teruglegging. Dit betekent dat de 
populatie na trekking steeds kleiner wordt en de kans op een bepaald element met een zeker 
kenmerk, van trekking tot trekking verandert. De fractie p is niet constant. 


De hypergeometrische formule 

Stel dat uit een (kleine) partij van N geproduceerde artikelen, waarvan er M defect zijn, een 
aselecte steekproef zonder teruglegging wordt getrokken van n artikelen. Gevraagd: de kans 
dat zich in de steekproef precies k defecte (dus n — k niet-defecte) artikelen bevinden. Deze 
kans kunnen we het gemakkelijkst berekenen door gebruik te maken van de in hoofdstuk 4 
aangeleerde begrippen uit de combinatoriek. 

Aan het aantal ‘defecte artikelen’ kennen we de kansvariabele K toe. De kansvariabele K 
is een hypergeometrisch verdeelde kansvariabele. 

De kansfunctie van K is te geven door de hypergeometrische formule: 


(OC) 
PEP ee ELS 


voork = О, 1, Z, až (5.10) 


Formule (5.10) kunnen we als volgt interpreteren: 


Discrete kansverdelingen 








N is het aantal elementen (artikelen) in de partij (=рорш айе); 

M is het aantal elementen (artikelen) in de populatie met een bepaalde eigenschap (‘de- 
fect у 

n is het aantal elementen (artikelen) in de steekproef; 

k is het aantal elementen (artkelen) in de steekproef met een bepaald eigenschap (‘de- 
fect’). 

In de formule van de kansfunctie kan men drie verschillende factoren beschouwen, die 
alle drie gebaseerd zijn op het aantal combinaties. De volgorde is immers niet van 
belang (de artikelen zijn niet eens genummerd). 


M\ . 
f ) is het aantal verschillende manieren om uit M elementen, die een bepaalde ei- 
genschap (defect) bezitten, precies k elementen te trekken. Bij al deze manieren zijn 


N =M , ' | 
ег ( k verschillende manieren om uit N — M elementen, die een bepaalde ei- 
n—=k 


genschap niet (dus hier: niet defect, oftewel kwalitatief goed) bezitten, precies n — k 
elementen te trekken. Het aantal gunstige manieren om k elementen met het kenmerk 
(hier: defect) en n — k elementen zonder dat kenmerk (niet defect) te trekken is dan 


Ha 


Het aantal mogelijke manieren om een steekproef van n stuks uit een partij van N stuks te 


aantal gunstige manieren 
aantal mogelijke manieren 


CN 
trekken, 1s | 


) toe te 
n 


‚ Door nu de klassieke kansdefinitie (kans = 


passen ontstaat formule (5.10). 


Voorbeeld 18 

Om een prijs te winnen in een lotto moet men een aantal genummerde balletjes goed 
hebben van de zes balletjes die zonder teruglegging zijn getrokken uit een populatie van 
balletjes die genummerd zijn van 1 tot 45. Wat is de kans op vier goede nummers? 


кыы 6\ [48 —6 "WI 6! 39! 
plossing 4/\6—4/ \A/\2/ _ 401 2137! aa 


Р(К =4)= f4) ———————= (5) S 451 = 543004 


45 
6 6 6!39! 


= 1,3646 · 10° 


Opdracht 
Wat is de kans op 6 goede nummers? 
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Voorbeeld 19 


Discrete kansverdelingen 


In een partij van 40 computers zitten 4 defecte computers. Men trekt uit de partij ase- 
lect zonder terugzetting 2 computers. Bepaal de kansverdeling van het aantal defecte 


computers in de steekproef. 


Oplossing 


Met behulp van de hypergeometrische kansverdeling kan men de verschillende kansen 
bepalen. We hebben de volgende parameters: № = 40, M = 4,n = 2. 


Hie 
FO = РГЕ zent wn Ef 
OOG 
1 2—1 
PU = Р(К = 1) = AL 


Н P >d 
TO PE De SA 


De kansverdeling ziet er nu als volgt uit: 


K f(k) 
O 0,8077 
І 0,1846 
2 0,0077 
У) 1,0000 


4! 36! 


0141 2134! 
= 40! 


2138! 


4! 36! 


_ 13! 1135! 
E 40! 


2138! 


4! 36! 


_ 212! 0136! 
= 40! 


2138! 








— 780 


630 — 0.8077 
144 

= + = 0,1846 
4. = 0,0077 
780 ? 


We zien dat de som van alle kansen gelijk is аап 1. We hebben dus inderdaad te doen 


met een kansverdeling. 
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Opmerking 

We hadden de kansen uit bovenstaand voorbeeld ook direct met de rekenregels uit de 
kansrekening kunnen berekenen in plaats van met de hypergeometrische formule. We 
geven daarbij een goede computer in de steekproef aan met G en een defecte computer 
aan met D. De kans op respectievelijk 0, 1 en 2 defecte computers in de steekproef van 
2 computers uit een partij van 40 computers is: 


- fO = P(GG) = 39 · $ = 0,8077 

– Ў) =P(DG) + Р(Ср) = p: 55 + 1-36 = 0,1846 
(let op: ег zijn twee elkaar uitsluitende mogelijkheden) 

- PO) = P(DD) = д5 · зу = 0,0077 


We zien dat we dezelfde kansverdeling hebben gevonden als door middel van de hy- 
pergeometrische verdeling. Soms is het gemakkelijker direct via de kansregels tot een 
oplossing te komen, een andere keer geeft de hypergeometrische verdeling een snellere 
oplossing. Vooral bij wat complexere vraagstukken maken we liever gebruik van de 
hypergeometrische verdeling. 


We kunnen de formule voor de hypergeometrische verdeling verder uitbreiden. 


Voorbeeld 20 

Op een schaal liggen 10 gebakjes (5 vruchtengebakjes, 3 slagroompunten en 2 tom- 
pouces). ledere gast kiest aselect een gebakje. Hoe groot is de kans dat de zesde gast 
alleen nog kan kiezen uit 1 slagroompunt en 4 vruchtengebakjes”? 


Oplossing 

De kans dat de eerste vijf gasten, 1 vruchtengebakje uit 5 mogelijkheden, 2 slagroom- 
punten uit 3 mogelijkheden en 2 tompouces uit 2 mogelijkheden hebben genomen 15, als 
wij de onafhankelijkheid van de keuze van de gasten veronderstellen: 


LEE) Harn 
Маа Toet ami 441 
PAV, 25, 2M) = ALL „ Аны ZN 2101 15 — 0,0595 


10 10! 252 252 
5 515! 


Indien in de hypergeometrische verdeling n veel kleiner is dan N, is te verwachten dat het 
weinig verschil maakt of de trekkingen met of zonder teruglegging geschieden. We kunnen 
dan de binomiale verdeling toepassen. 


Opdracht 
Bereken de kansen uit voorbeeld 19 nogmaals door de binomiale verdeling toe te passen 
(dit mag want n < 0,1 N) en merk op hoe klein het verschil 15. 
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5.4.6 De Poisson-verdeling 

We zullen nu een discrete kansverdeling bespreken die geïntroduceerd is in 1837 door S.D. 
Poisson. Deze verdeling kunnen we, wiskundig gezien, op twee manieren afleiden. Ten 
eerste geheel ‘zelfstandig’, maar we kunnen de Poisson-verdeling ook beschouwen als een 
limietgeval van de binomiale verdeling. 

Om het verband met de binominale verdeling duidelijk te laten uitkomen, zullen wij de 
Poisson-verdeling afleiden als een limiet van de binomiale verdeling. 

In de praktijk zijn er talloze situaties waarbij aan alle voorwaarden voor een binominale 
verdeling lijkt te zijn voldaan. Bij de uitwerking en interpretatie van deze gevallen stuit 
men echter op grote moeilijkheden. We zullen dit toelichten met een voorbeeld. 


Voorbeeld 21 
Aan een loket melden zich gemiddeld 60 personen per uur. Hoe is het aantal klanten dat 
zich рег uur aan het loket meldt verdeeld”? 


Oplossing 

Ideaal zou zijn als er precies elke minuut iemand bij het loket zou aankomen en binnen 
een minuut weer zou vertrekken. In dat geval is het aantal klanten dat zich per uur aan het 
loket meldt altijd 60, dus constant. In de praktijk zal, als we de aankomsten per minuut 
bekijken, wel gemiddeld één persoon per minuut arriveren, maar er zullen veel minuten 
zijn waarin niemand binnenkomt en ook minuten, waarin er 1, 2, 3 of meer aankomsten 
zijn. 

Gesteld dat iemand precies één seconde nodig heeft om binnen te komen, dan is de kans 
dat in een bepaalde seconde iemand arriveert: 9. — i en de kans dat niet iemand 
aankomt Zo. Het aantal klanten dat per minuut aankomt lijkt dus binomiaal verdeeld 
met fractie — In een uur zijn er 3600 momenten waarop iemand binnen kan komen, 
maar het aantal momenten waarop dit werkelijk gebeurt, 15 in verhouding tot het aantal 
mogelijke keren erg klein. 

Kiest men een nog kleinere tijdseenheid (bijvoorbeeld 0,001 seconde), dan is de kans 
op het optreden van een gebeurtenis (aankomst) binnen die tijdseenheid vrijwel nul en 
het aantal mogelijke keren (binnen een tijdsbestek van een uur) wordt 1000 keer groter. 
Waar blijven we nu met de binomiale verdeling? 

We zullen deze vraag hierna beantwoorden. 


In voorbeeld 21 zien we dat het aantal mogelijke gebeurtenissen (aankomsten), per tijds- 
eenheid zeer groot is, maar de kans op zo’n gebeurtenis is erg klein. 

Het totaal aantal mogelijke gebeurtenissen (n) is zeer groot en nadert naar oneindig, terwijl 
р zeer klein is en naar nul nadert. In dit soort situaties maken we gebruik van de zoge- 
naamde Poisson-verdeling. 
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5.4.7 Opbouw van een Poisson-verdeling 

Het voorgaande kunnen we formeel samenvatten. 

Heeft men een binominale kansvariabele met de parameters п en р, waarbij п nadert naar 
oneindig (п — œ ) en p nadert naar nul (р — 0), zodanig dat n - p constant blijft, dan kan 
dit limietgeval van de binominale verdeling benaderd worden door een Poisson-verdeling. 
In het voorbeeld beschouwen we zeer kleine tijdsintervallen, waardoor het aantal momenten 
waarop iemand kan arriveren (n) nadert naar oneindig. Gelijktijdig zal de kans p, dat op een 
bepaald moment iemand arriveert, naar nul naderen. Als de aankomsten volkomen toevallig 
zijn en onderling onafhankelijk, zal voor P(K = К) (de kans op К aankomsten) gelden: 


1 | ; 
P(K = k) = lim ( Ju = рү" 
п > оо, p 0 k 
А = np is constant 


Bij het uitwerken van deze limiet (op de afleiding gaan we verder niet in) ontstaat de kans- 
functie voor de variabele K, de Poisson-formule: 


К 


d 
Ў К) := РЕК == ~ Ti (ret ke = 0, 1,2-7) (5.11) 


In formule (5.1 1) 15: 

k = aantal ‘successen’ 

A = gemiddeld aantal ‘successen’ =n: p 
е = grondtal van de natuurlijke logaritme, waarbij е numeriek ongeveer gelijk is aan 2,71828... 
Uit de formule voor de kansfunctie blijkt dat de verdeling van de Poisson-variabele geheel 
bepaald wordt door slechts één parameter, namelijk: À. 


Dat de Poisson-variabele een kansverdeling volgt, blijkt uit het feit dat men kan bewijzen dat 
n n E 

de som van alle mogelijke kansen gelijk is aan 1, dus dat: 3 Р(К < К) = У, e ==], 
к=0 k=0 ' 

Het zijn met name aantallen gebeurtenissen per eenheid van tijd (het aantal verkeersonge- 


vallen per jaar, het aantal brandmeldingen per maand, het aantal service-calls per week, het 
aantal telefoongesprekken per dag, het aantal storingen per uur, het aantal bestellingen per 
kwartier, het aantal geigerteller-tikken per minuut) die een Poisson-verdeling bezitten. Maar 
ook voor andere dimensies zoals bijvoorbeeld lengte, oppervlakte en inhoud treffen we in 
de praktijk vaak Poisson-verdelingen aan, zoals bijvoorbeeld het aantal weeffouten per me- 
ter in een rol gordijnstof, het aantal oppervlaktefouten per cm? ор de carosserie van een 
auto of het aantal bacteriën per ст? in de ons omringende lucht. Uit de bovenstaande voor- 
beelden blijkt dat we bij Poisson-verdeelde variabelen niet altijd kunnen spreken van zowel 
het aantal wel-optredende gebeurtenissen (‘successen’) als van het aantal niet-optredende 
gebeurtenissen (‘mislukkingen’). Bij binomiale verdelingen kan dit juist wel. 
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5.4.8 De tabellen van de Poisson-verdeling 

Voor verschillende waarden van À is de Poisson-verdeling met de parameter A vastgelegd in 
de tabellen B3 en B4. Tabel B3, de tabel van de enkelvoudige Poisson-verdeling, geeft voor 
een aantal opeenvolgende relevante waarden van К de kans Р(К = k) (formule (5.11) en 
tabel B4, de tabel van de cumulatieve Poisson-verdeling, geeft voor een aantal opeenvol- 
gende relevante waarden van с de kans Р(К < с) = Р(К = 0) + Р(К = 1) + Р(К = 
B) rt FK кее). 


Opdracht 
Toon aan met behulp van tabel ВЗ dat in een Poisson-verdeling met л = 5 voor P(K < 4) 
dezelfde uitkomst verschijnt als in tabel B4 voor с = 4. 


Daarnaast is de Poisson-formule uiteraard ook met een rekenmachine te berekenen. 
In EXCEL is de Poisson-formule voorgeprogrammeerd. 


Voorbeeld 22 

Op een bepaald telefoontoestel komen gemiddeld 4 gesprekken per uur door. Het aantal 
gesprekken per uur is Poisson-verdeeld. 

a. Wat 15 de kans dat er per uur precies twee gesprekken doorkomen? 

b. En wat is de kans dat er per uur minstens twee gesprekken binnenkomen? 


Oplossing 

a. Stellen we het aantal telefoongesprekken dat per uur doorkomt К, dan volgt К een 
Poisson-verdeling met à = 4. De ин dat т in een bepaald пиг 2 gesprekken 
doorkomen, is: Р(К = 2) ze 2. e S e + = 0,146 (zie ook tabel 
B3). | | 

b. De kans op tenminste 2 gesprekken in bovenstaand voorbeeld vinden we als volgt: 
P(K 22) =1l-—P(K < 1) = 1 — 0,092 = 0,908 oftewel 90,8%. 
De kans P(K < 1) is bepaald met tabel B4. 


We moeten ons bij dit soort voorbeelden goed realiseren hoe de vraagstelling luidt. We 
kunnen bijvoorbeeld de volgende mogelijkheden onderscheiden: 

— P(minder dan twee) = Р(К =0) + Р(К = 1) = Р(К < 1) 

— P(ten hoogste twee) = Р(К = 0) + Р(К = 1) + Р(К = 2) = Р(К < 2) 

= P(precies twee) = Р(К = 2) 

— P(minstens twee) = Р(К > 2) = 1 —– Р(К < 1) 

— P(meer dan twee) = Р(К > 3) = 1 – Р(К < 2) 


In de volgende twee voorbeelden laten we toepassingen uit de praktijk zien. 








Discrete kansverdelingen hoofdstuk 5 103 
ne 


Voorbeeld 23 
Op een bepaald verkeersknooppunt in een stad gebeuren gemiddeld 0,8 aanrijdingen per 
dag (Poisson-verdeeld). Wat is de kans op maximaal drie aanrijdingen op één dag? 


Oplossing 

Het aantal aanrijdingen К is Poisson-verdeeld met à = 0,8 
De gevraagde kans is: P(K < 3). 

P(K < 3) = 0,991 (tabel B4). 

De kans op maximaal 3 aanrijdingen bedraagt 0,991 of 99,1% 


Voorbeeld 24 
Op een garenspoel zit ongeveer 1000 m garen. Bij het opwikkelen op de spoel kunnen 
draadbreuken optreden. Van een bepaald garen is bekend dat er gemiddeld 1,2 draad- 
breuken per spoel optreden (Poisson-verdeeld). Wat is de kans op een spoel zonder 
draadbreuken? 


Oplossing ; 
Р(К = 0) = е712. 7 = 0,3012. 1 = 0,3012 (zie ook tabel B3). 
Conclusie: De kans ор ееп draadbreukloze spoel is 30,12%. 


5.4.9 Verwachtingswaarde en variantie van de Poisson-verdeling 

In de inleiding hebben we de Poisson-verdeling voorgesteld als een limietgeval van de bi- 
nomiale verdeling. De verwachtingswaarde уап een binomiale verdeling 15 E(K) =n · р. 
Voor de variantie geldt var (K) = np(l — p). 

Op basis hiervan kunnen we vermoeden dat de verwachtingswaarde voor een Poisson 
(-verdeelde) variabele К gelijk zal zijn aan E(K) = np = А. Dit is ook te bewijzen met 
behulp van formule (5.1) met formule (5.11) daarin ingevuld, maar we zullen dat bewijs 
niet geven. 


Voor de variantie van een Poisson-variabele K geldt verrassenderwijs: var (К) = пр. Dit is 
te bewijzen met formule (5.3) (en formule (5.11). Bij nader inzien 15 dit resultaat ook weer 
niet zo verbazingwekkend. Kijk maar wat er gebeurt als in de formule var (K) = np(l — p) 
in de limietsituatie p naar О nadert, dus 1 — p naar 1. 

Samenvattend zien we dat de verwachting, de variantie en de standaardafwijking van een 
Poisson-variabele gelijk zijn aan respectievelijk: 


EK) = (5.12) 

var(K) = А (9.13) 

ок = МА (5.14) 
Opmerking 


Omdat de parameter A van een Poisson-verdeling blijkbaar overeenkomt met de ver- 
wachtingswaarde (welke — zoals we weten — vaak met u wordt aangeduid), wordt A 
vaak direct vervangen door и. 
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5.4.10 Optelbaarheid van Poisson-verdelingen 
De Poisson-verdeling bezit een opmerkelijke eigenschap. Deze manifesteert zich wanneer 
twee Poisson-verdeelde variabelen worden opgeteld. 


Stelling 1 

Heeft men twee onderling onafhankelijke Poisson-variabelen К еп L met de parame- 
ters Ак en Ау dan is de somvariabele Z = K + L weer een Poisson-verdeling met de 
parameter Az = Ак + А. 


In de praktijk is dit een belangrijke regel. Stel dat bijvoorbeeld een product meerdere behan- 
delingen ondergaat en elke behandeling heeft een kans op fouten, waarvan het aantal (per 
tijdseenheid of per serie) steeds Poisson-verdeeld is. Dan is volgens de stelling het totaal 
aantal fouten in het eindproduct ook weer Poisson-verdeeld. Nu volgt een ander voorbeeld. 


Voorbeeld 25 

Het aantal verkeersongelukken per maand met dodelijke afloop in plaats A is Poisson- 
verdeeld met parameter (dus verwachtingswaarde) 2. Dan is het aantal verkeersonge- 
lukken per jaar in plaats A eveneens Poisson-verdeeld, maar dan met parameter (gemid- 
delde) 12 x 2 Ze, 


5.4.11 Benadering van een binomiale verdeling door een Poisson-verdeling 
We hebben gezien dat de binomiale verdeling van de twee parameters n en p afhankelijk 
is. Zo'n verdeling is moeilijk te tabelleren. In het inleidend voorbeeld waarmee we deze 
paragraaf begonnen, is gesteld dat de Poisson-verdeling kan worden opgevat als een limiet- 
geval van de binomiale verdeling. We kunnen nu in die gevallen, waarin n voldoende groot 
is en p voldoende klein, de binomiale verdeling benaderen door een Poisson-verdeling. De 
benadering past des te beter naarmate de waarde van n groter en de waarde van p kleiner 
wordt. 

Als vuistregel kunnen we hanteren dat als p < 0,1 en п > 25, het verantwoord is de 
Poisson-verdeling te gebruiken als benadering voor een binomiale verdeling. 


Voorbeeld 26 

Een fabrikant keurt elke partij binnenkomende goederen door middel van een steekproef 
van 100 stuks. Wanneer in deze steekproef meer dan 5 foutieve exemplaren worden 
aangetroffen, wordt de betreffende partij afgekeurd en teruggezonden. 

Wat is de kans dat een partij met 10% uitval bij deze controle zal worden afgekeurd? 


Oplossing 
In dit voorbeeld is р = 0,1 еп n = 100. We kunnen dit binomiale probleem rekentech- 
nisch benaderen door een Poisson-verdeling met de parameter à = np = 0,1 -100 = 10. 
Meer dan 5 fouten betekent K > 6. 

P(K > 6) = 1 P(K < 5) = 1 — 0,067 = 0,933 (tabel ВА is gebruikt). 

De kans dat de partij met 10% uitval zal worden afgekeurd is dus 93,3%. 
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Opgaven 


1. Inde stad Dobbeldam is tussen 14.00 uur en 15.00 uur gemiddeld 1 уап de 4 telefoon- 
nummers in gesprek. Wanneer iemand in die tijd 4 keer opbelt, hoe groot is de kans, 
dat minstens één nummer in gesprek is? 


2. In het station van Spoorstad komen gemiddeld 4 van de 5 treinen zonder vertraging 
binnen. Wanneer er per dag 6 treinen binnenkomen, hoe groot is de kans dat juist één 
trein met vertraging binnenkomt? 


3. Van een beroepsziekte is bekend dat 25% van de mensen die dit beroep uitoefenen, er 
door wordt aangetast. Hoe groot 1$ de kans dat уап 7 nieuw aangenomen personeelsle- 
den in dit beroep er hoogstens één van hen de beroepsziekte krijgt? 


4. Een fabriek van huishoudelijke apparaten keurt elke partij binnengekomen onderdelen 
door middel van een steekproef van 20 stuks. Wanneer in deze steekproef meer dan 2 
foutieve onderdelen worden gevonden, wordt betreffende partij afgekeurd. Bereken de 
kans dat een partij met 10% foutieve onderdelen wordt afgekeurd. 


5. Een kwaliteitscontroleur, werkzaam bij een fabrikant van elektronicacomponenten, wil 
nagaan of een partij van een bepaalde component aan de specificatie voldoet (95% van 
de componenten werken goed). Hij neemt aselect een steekproef van 15 componenten 
uit de (grote) partij, die klaar staat voor verzending. De partij wordt goedgekeurd als 
alle 15 componenten goed functioneren. 

a. Wat is de kans dat hij op basis van de steekproef de partij blokkeert (voldoet niet 
aan de specificatie), terwijl toch 95% van de componenten in de partij goed functi- 
oneert? 

b. Wat is de kans dat hij de partij goedkeurt, terwijl slechts 90% уап de componenten 
in de partij goed functioneert? 


6. Bij de keuring van een zeer grote partij speelgoedauto's heeft men de volgende keu- 
ringsvoorschrift: 

— neem aselect 10 stuks uit de partij; 

— zijn hiervan 3 of meer ondeugdelijk, (niet voldoen aan de gestelde eisen) keur de 
partij af; 

— zijner 1 of 2 exemplaren ondeugdelijk, neem nog een aselecte steekproef van 10 
stuks; keur de partij goed als er in beide steekproeven tezamen ten hoogste 3 exem- 
plaren ondeugdelijk zijn; 

— zijn er in de eerste steekproef 0 exemplaren ondeugdelijk, keur de partij goed. 

Wat is de kans dat een partij met 20% ondeugdelijke exemplaren wordt afgekeurd”? 
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De kans dat een fluorescerende lamp een levensduur heeft van minstens 500 uur be- 
draagt 85%. Bereken de kans dat bij 20 van deze lampen men: 

a. precies 18 lampen vindt met een levensduur van ten minste 500 uur; 

b. tenminste 15 lampen vindt met een levensduur van ten minste 500 uur; 

с. ten hoogste 2 lampen vindt die geen levensduur van ten minste 500 uur hebben. 


Gemiddeld genomen treedt er in een fabriek één keer per 50 werkdagen een storing op 
in een bepaalde machine. Hoe groot is de kans dat er in een aaneengesloten periode 
van 10 werkdagen twee keer een storing in deze machine optreedt? 


Op een klein vliegveld arriveren per uur gemiddeld 3 vliegtuigen. Hoe groot is de kans 
dat er: 

a. ineen periode van 2 uur hoogstens 2 vliegtuigen landen? 

b. ineen periode van een 1 uur minstens 2 vliegtuigen landen? 


с. ineen periode van 3 uur minstens 5 maar hoogstens 8 vliegtuigen landen? 


Een verhuurbedrijf heeft 10 auto’s, die per dag worden verhuurd. Gemiddeld over een 
lange periode blijken er 7,5 aanvragen voor verhuur per dag te zijn. 
Hoe groot is de kans dat op een dag alle wagens zijn verhuurd? 


Een transportbedrijf heeft 2 grote hijskranen die per werkdag gehuurd kunnen wor- 
den. Het aantal aanvragen per dag bedraagt gemiddeld 1,5. Onder een werkdag wordt 
verstaan van 08.00 uur tot en met 17.00 uur. 

a. Hoe groot is de kans dat er om 11.00 uur nog geen aanvraag is binnengekomen? 
b. Welk percentage van de dagen zijn beide hijskranen thuis? 

с. Welk percentage van de dagen zijn beide hijskranen verhuurd? 

Een drukker wenst tegen zijn klanten de volgende bewering te gebruiken: 

‘De kans dat er meer dan m drukfouten op een willekeurige pagina voorkomen, is 
kleiner dan 1%’. Als het aantal drukfouten per pagina een Poisson-verdeling volgt, met 
een gemiddelde van 3, welke waarde van m zal de drukker dan moeten kiezen in zijn 
bewering? 


Een keuringsambtenaar onderzoekt een aselecte steekproef van drie broodroosters uit 
een partij van 24. Als de partij zes broodroosters bevat met kleine gebreken, wat is dan 
de kans dat de keuringsambtenaar zal vinden: 

a. geen defecte broodroosters”? 

b. slechts één defect broodrooster? 

с. {еп minste twee defecte broodroosters? 


Een bingo-spelletje wordt gespeeld met 35 getallen (van 1 t/m 35). 
a. Wat is de kans dat een deelnemer van 10 getrokken getallen ег 0 goed heeft? 
р. Wat 15 de kans dat de deelnemer 5 van de 10 getallen goed heeft? 
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6.1 Inleiding 


In dit hoofdstuk bespreken we de continue kansverdelingen, met als belangrijkste continue 
(kans)verdeling de normale verdeling. 

Een continu verdeelde kansvariabele kan elk reëel getal op een bepaald interval aannemen. 
Dit in tegenstelling tot een discreet verdeelde kansvariabele die alleen gehele getalswaarden 
kan aannemen of een geselecteerd aantal waarden op een zeker interval. 

Een continue kansverdeling ontstaat als we gaan meten. Hierbij kan in principe elke reële 
getalswaarde in een bepaald interval voorkomen. Het hangt van de nauwkeurigheid van het 
meetinstrument af, hoe nauwkeurig (in hoeveel decimalen) de meetuitkomst wordt weer- 
geven. In zijn algemeenheid kunnen we zeggen dat, als een meetwaarde in decimalen kan 
worden weergegeven, we te maken hebben met een continue verdeling. Soms wordt een 
continue variabele echter wel in gehele getallen weergeven, maar als het meetinstrument 
wat nauwkeuriger was, waren ook decimale waarden mogelijk. Het gewicht van een be- 
paald product kan men weergeven in gehele grammen (al dan niet na afronding), maar ook 
in cijfers achter de komma. Dus gewicht is een continue variabele. Tentamencijfers zijn 
meestal gehele getallen. In die zin hebben we te maken met een discrete variabele. Maar 
we kunnen tentamencijfers ook zien als afgeronde reële getallen. Daardoor kunnen we de 
verdeling van tentamencijfers toch beschouwen als een continue kansverdeling. 

Net als in hoofdstuk 5 bij discrete kansvariabelen willen we een theoretisch model van een 
aantal belangrijke continue verdelingen maken. Feitelijk is de benaming kansfunctie, die 
in hoofdstuk 5 voor discrete kansvariabelen is geïntroduceerd, in dit geval niet hanteerbaar. 
Om het wiskundig model van een continue kansverdeling te kunnen beschrijven, gebruiken 
we de benaming kansdichtheid (of kansdichtheidsfunctie). 


Het begrip kansdichtheid 
Dat een kansdichtheid een positieve uitkomst moet hebben ligt voor de hand (een kans is 
per definitie positief). We weten inmiddels dat een continue kansvariabele op een zeker 
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interval (bijvoorbeeld op [а, b]) oneindig veel waarden kan hebben. Dat de som van alle 
oneindig-veel kansen gelijk aan 1 moet zijn, kunnen we praktisch gezien niet meer als som 
maar wel als integraal schrijven. Vandaar: 


Definitie 
Voor een kansdichtheid f(x) van een continue kansvariabele X, die waarden x aan kan 
nemen op het interval [a, b], geldt in het algemeen: 


1. f(x) > О voor alle waarden x van X 


b 
2. | года SS? 


Opmerking 

a. We merken op dat a en/of b oneindig klein respectievelijk groot kunnen zijn. 

b. We herinneren eraan dat voor zover het de naam van een kansvariabele betreft deze 
met een hoofdletter geschreven wordt (X) en wanneer we de waarde van de variabele 
bedoelen, schrijven we een kleine letter (x). 

с. De kans dat X exact de waarde x (willekeurig) op het interval [a,b] aanneemt, 15 
zeer klein (vrijwel 0), omdat op het interval oneindig veel mogelijke waarden liggen. 


De definitie houdt in dat het oppervlak onder de grafiek van een kansdichtheid gelijk aan | 
moet zijn. Deeloppervlakken kunnen we identificeren met kansen: 


d 
Pice zd) = | ras (6.1) 


Xe 


Fig. 6.1 Р(е = Х =й) = P fide 
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Opdracht 
Bedenk waarom voor een continue kansvariabele X geldt: P(c < X < d) = P(c < X < а) 


6.2 Verwachtingswaarde en variantie van een continue kans- 
verdeling 


Net als bij een discrete kansvariabele (zie hoofdstuk 5) bestaan er formules voor de ver- 
wachtingswaarde (gemiddelde) en variantie (of standaardafwijking) van een continue kans- 
variabele. Deze formules vertonen een zekere analogie. 

Voor de verwachtingswaarde van een continue kansvariabele geldt: 


оо 
ЕХ) = | x- ТОШ (6.2) 
—90 
We kunnen deze formule begrijpen als we de formule voor de verwachtingswaarde van 
n 
een discrete kansvariabele tevoorschijn halen: E(K) = У kif (k;) en bedenken dat de 


I=] 
variabele X, in tegenstelling tot К, een interval met oneindig veel reële getallen doorloopt. 


Als X slechts waarden tussen a en b doorloopt gaat formule (6.2) over in: 
b 
E(X) Tse, fr 


1 
Voor de variantie van een continue verdeling geldt, net als voor een discrete verdeling: 


var(X) = Е(Х?) – {Е(Х)} 
Уоог E(X?) geldt, in analogie met de formules (5.3a) en (5.4a) uit hoofdstuk 5 


n 
waarin E(K?) = УРО) + к? voorkomt) ook weer na overgang op een integraal: 
i=l 
оо 


Е(Х?) = | к^. f(x)dx 
Kë 
Gebruikmakend van formule (6.2) geldt voor de variantie van een continue kansvariabele 
dus: 


оо ОО 2 
var(X) = | Ж” + f(x)dx — / e: РОЯ (б.3) 
= J х? . f (xjdx Ken и? (6.3a) 


00 
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De formules (6.1) t/m (6.3a) zullen we in de rest van dit hoofdstuk gebruiken. 

In dit hoofdstuk zullen we nu drie continue kansverdelingen bespreken, namelijk: 
— de uniforme of rechthoekige continue verdeling; 

— de normale verdeling; 

— de negatief-exponentiële verdeling. 


De normale verdeling is verreweg de belangrijkste van alle theoretische kansverdelingen. 
Deze verdeling vormt de grondslag van de klassieke statistische toetsings- en schattingsthe- 
orie (zie hoofdstuk 7, 8 en 9). Allereerst zullen we de uniforme of rechthoekige continue 
verdeling behandelen. 


6.3 Uniforme- of rechthoekige continue verdeling 


Zoals we in de inleiding gezien hebben, geldt voor een continue kansvariabele dat elke 
uitkomst, in een bepaald interval mogelijk is. Voor de uniforme of rechthoekige continue 
verdeling geldt daarbij dat het optreden van elke uitkomst dezelfde kans bezit. De kans- 
dichtheid f(x) is voor alle waarden in de uitkomstenruimte(interval) constant. Als voor- 
beeld nemen we een ‘rad van avontuur’. 


0 
| 
0.7 -0.25 
| 
0,5 
Fig. 6.2 ‘Rad van avontuur’ 


De pijl in figuur 6.2 draait op een as in het middelpunt van een cirkelvormige schijf. De 
pijl beweegt in de richting van de wijzers van de klok met een willekeurige beginsnelheid. 
Na enige tijd komt de pijl tot stilstand. We bekijken de plaats op de rand waar de pijl 
blijft stilstaan. Omdat de beginsneldheid willekeurig 15, is elk punt op de rand waar de pijl 
tot stilstand komt even waarschijnlijk. De plaats waar de pijl stopt is te identificeren met 
een willekeurig reëel getal tussen О en 1. Elk getal tussen 0 en 1 is even waarschijnlijk. 
De som van alle mogelijke kansen, dus de totale kans 1, wordt uniform verdeeld over alle 
mogelijke waarden van X in het interval [0,1]. Een dergelijke kansvariabele X noemen we 
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een standaard uniforme kansvariabele. We zeggen ook wel dat de kansvariabele Х een 
rechthoekige of uniforme verdeling volgt op [0,1]. 
De formule voor de kansdichtheid van X luidt in dit geval: 


Р) = 1 voort sx 1 
rie == U elders 


Hiermee zeggen we dat elke waarde van X even waarschijnlijk 15. 


Opdracht 


Controleer voor bovenstaande functie dat aan de definitie van een kansdichtheid is voldaan. 


We kunnen op basis van het gegeven voorbeeld wat algemener definiëren: 


Definitie 

Een continue kansvariabele X die alle waarden x op het interval [a,b] kan aannemen 
met even grote waarschijnlijkheid, dat wil zeggen met constante kansdichtheid, heet een 
uniforme continue kansvariabele. De formule voor de kansdichtheid hiervoor luidt: 


1 
fa) = SC voora <x <р (6.4) 


fin) == elders 


In figuur 6.3 is de grafiek van de kansdichtheid uit formule (6.4) weergegeven. 





a b ge A 


Fig. 6.3 Kansdichtheid van een uniform verdeelde X 
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Aan de symmetrie in de grafiek van de kansdichtheid zien we dat voor de verwachtings- 
waarde van een uniform verdeelde kansvariabele geldt: E(X) = 5 (Ь + а). Het gemiddelde 
ligt precies halverwege tussen a en b. We kunnen dit bewijzen door formule (6.2) toe te 
passen. 


Voorbeeld 1 
Als we het waardeninterval [a, b] beschouwen voor de continue rechthoekig-verdeelde 


| | 8 | 
kansvariabele X, met f(x) = Den’ krijgen we voor de verwachtingswaarde van X: 
—@ 





E(X) 


| 
KI 
5 
| 
© 
~a 
°ч 
| 
у 
| — 
Q 
aAa 
Al ra 
N 
Каке) 
| Ц 
a CR 


JL "ap 3 
E 5062) e} 
(b—a)(b+a) _ 1 

2 Б =—=а 2 


(b+a) 


Het gemiddelde of de verwachtingswaarde van een op het interval [a, b] rechthoekig 
continue verdeelde variabele X 15 dus: 


1 
А) = = O +a) 


Voor de berekening van de variantie kunnen we niet zonder formule (6.3): 


Voorbeeld 2 
Voor de continue op het interval [a,b] rechthoekige-verdeelde verdeelde variabele X 
berekenen we de variantie als volgt: 


b 


l | 
je: dy = =: UI – а?) 
b—a 3(b —a) 


а 


(b — а)(Ь? + аЬ + b2?) 
3(b —a) 





Е(Х?) 


b? +ab +b? 
3 
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Er geldt dus: 


b? +ab+b? 2 
vork) = San -( ) 


3 zO +a) 


1 
06. E, 
cl a) 


In de laatste regel is een wiskundige herleiding toegepast. 





De zojuist ontwikkelde formules kunnen algemeen gebruikt worden bij uniforme of rechthoekig- 


continu-verdeelde kansvariabelen. 


Voorbeeld 3 
De verwachting en de variantie van een continue rechthoekig verdeelde variabele op het 
interval [3,13] is : 

E(X) = и = ja +b) = 1(3 + 13) = 8 
var(X) = elt — а)? = b3 — 3 


6.4 De normale verdeling 


Vele verschijnselen uit de natuur, zoals bijvoorbeeld de frequentieverdeling van lengtes van 
geproduceerde assen of het gewicht van mensen, geven bij grafische weergave een histo- 
gram waarvan de vorm (weergegeven door de zogenaamde ideale kromme) ongeveer klok- 
vormig is. Deze grafieken worden vaak benaderd door een continue kromme, die ééntoppig 
en symmetrisch is. Deze kromme is voor het eerst ontdekt (onafhankelijk van elkaar) door 
de Franse wiskundigen De Moivre en Laplace. De Duitser Carl Friedrich Gauss (1777 - 
1885) gaf het belang van de kromme weer, door deze in verband te brengen met de fouten- 
theorie van fysische metingen. 

Doordat de kromme in de praktijk veelvuldig voorkomt, wordt zij de “normale verdeling’ 
genoemd. Men moet aan het woord ‘normaal’ echter geen specifieke betekenis toekennen, 
in de zin dat een verdeling die niet normaal is, beschouwd zou moeten worden als abnormaal 
ofwel ‘malafide’. 

Daarnaast wordt de kromme ook vaak naar zijn ontdekkers genoemd, namelijk de Gauss- 
kromme, of verdeling van Gauss, of verdeling van De Moivre. 

Naast de al genoemde praktische zin en het belang van de normale verdeling (meetfou- 
ten en verschijnselen in de natuur), kunnen andere kansverdelingen (zoals de binomiale en 
de Poisson-verdeling) onder bepaalde omstandigheden benaderd worden door een normale 
verdeling. We komen hierop terug aan het eind van dit hoofdstuk. 

In figuur 6.4 is de frequentieverdeling weergegeven van de lengtemetingen van 1000 aselect 
gekozen mannen. De klassenbreedte is 2 cm. Vertikaal is het aantal mannen per klasse 
weergegeven. 
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aantal 


mannen | 
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157 165 173 181 189 
— > lengte (cm) 


























Fig. 6.4 De lengteverdeling van 1000 mannen (klassenbreedte = 2) 


Uit de afbeelding blijkt dat de klasse 172 - 174 de modàle klasse is. Dit is de klasse met 
173 als klassenmidden. Op grond van de vorm van het histogram kunnen we al vermoeden 
dat de lengten normaal verdeeld zijn. 

In plaats van de absolute aantallen, kunnen ook de relatieve aantallen vertikaal worden 
uitgezet. De relatieve frequentie is, zoals we in hoofdstuk 4 gezien hebben, gelijk aan de 
kans dat een waarneming in een bepaalde klasse valt (en komt, zoals we in hoofdstuk 5 
gezien hebben overeen met de kansfunctie). In figuur 6.5 is de kansfunctie uitgezet van 
voorbeeld 4, maar nu bij een steekproef van 3000 mannen. De klassenbreedte is daarbij 
verkleind tot 1 cm. 

De kans dat een man een lengte heeft van 173 cm (dus in de klasse 172,5 - 173,5 met 
klassenmidden 173 cm valt), is het grootst. 


kans 


| 























173 ——> lengte (cm) 


Fig. 6.5 De lengteverdeling van 3000 mannen (klassenbreedte = 1) 





De ‘trapjeskromme’ kunnen we benaderen door een vloeiende kromme (zie figuur 6.5). 
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De vloeiende kromme die hierdoor ontstaat, vertoont ongeveer een (kerk)klokvorm. Door 
de klassenbreedte steeds meer te verkleinen (naderend tot 0) en het aantal metingen te ver- 
groten, kan de vloeiende kromme steeds beter worden geconstrueerd en is de klokvorm 
des te beter te benaderen. De discrete ‘trapjes’-verdeling gaat hierbij over in een continue 
verdeling. 

De op deze wijze ontstane kromme, kan blijkens de ontdekking van Gauss, goed benaderd 
worden door de wiskundige functie: 


Ч 
о (б.5) 


Dit is de formule van de kansdichtheid van de normale verdelingbehorend bij de kansvaria- 
bele Х. 

Bewezen kan worden dat formule (6.5) voldoet aan de definitie van een kansdichtheid: het 
oppervlak onder de kromme is, ongeacht de waarde van u en с gelijk аап 1. 

In figuur 6.6 is de grafiek van deze kansdichtheid weergegeven. 


buigpunt А buigpunt 


E | | 
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| 
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аа | | , Ee 




















u -30 u-20 n-o u и +170 nt2g и +За 
Fig. 6.6 Kansdichtheid van de normale verdeling 


Zowel uit de formule als uit de figuur blijkt dat de normale verdeling volledig wordt bepaald 
door de parameters u en с. De normale verdeling blijkt klokvorming te zijn en symme- 
trisch om x = u. Verder kan bewezen worden dat er buigpunten zijn bij de punten met 
x-coördinaat x = и +0 enx = и ~ о. 

Passen we formule (6.2) en formule (6.3) toe met de kansdichtheid uit formule (6.5) dan 
blijkt dat de verwachtingswaarde E(X) gelijk aan џ is en de variantie var (X) gelijk aan o? 
is, dus de standaardafwijking is gelijk aan ø (voor het bewijs verwijzen we naar de wiskun- 
deboeken). Kortom: de parameters van de normale verdeling zijn de verwachtingswaarde 
u (= het gemiddelde) en de standaardafwijking o, 


Opdracht 
Ga na dat de grafiek van de normale verdeling breed en laag is bij een grote waarde van o 
(veel spreiding) en smal en steil bij een kleine waarde van ø (weinig spreiding). 
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In principe loopt het waardenbereik van X van -oo tot +оо . In de praktijk komt het echter 
niet voor dat de uitkomsten van metingen een dergelijk interval doorlopen. Bijvoorbeeld 
mannen kleiner dan О meter of langer dan 3 meter is natuurlijk onzin. Het blijkt dat f(x) 
voor zulke onwaarschijnlijke uitkomsten praktisch nul is en de theoretische benadering van 
het werkelijk geval door f(x) geen belemmering vormt. Voor elke normale verdeling geldt 
dat van de totale oppervlakte: 

— 68,2% ligt tussen de grenzen u — lo en и + 1с; 

— 95,4% ligt tussen de grenzen и — 20 en и + 20; 

— 99,7% ligt tussen de grenzen и — 30 en и + Зо. 


Deze feiten zullen we spoedig aantonen. Ze zijn weergegeven in figuur 6.7. 


34,1% 





2,15% 





0,15% 


H-36 -20 -lo u LIG u+20ọ р+3с 
Fig. 6.7 De normale verdeling 


We zien hierin dat binnen de 2o-grenzen, de gebruikelijke aanduiding voor het interval 
[u — 20, u + 2o], ruim 95% van alle waarnemingsuitkomsten liggen. 

Binnen de Zo -grenzen (interval [и — Зс, и + 30 ] ligt 99,7%. Hebben we bijvoorbeeld 300 
uitkomsten, dan zal er slechts één buiten de Зо -grenzen vallen. 


Voorbeeld 4 

Stel dat de lichaamslengten van mannen normaal verdeeld zijn met и = 174 cm en 
о = 7 cm, dan ligt tussen de 20 -grenzen (174 + 14 ст) 95,4% van de waarnemingen. 
Men kan dan ook zeggen dat 95,4% van alle mannen een lengte heeft tussen 160 en 188 
cm. Weer anders gezegd: de kans om een lengtewaarde tussen 160 en 188 cm te vinden 
is 0,954 ofwel 95,4%. Dit laatste kunnen we beknopt weergeven als: 

P(160 < X < 188) = 0,954. 


Men kan ook twee willekeurige grenswaarden nemen bijvoorbeeld X = a en X = b. Zoals 
in de inleiding van dit hoofdstuk reeds is gezegd, geldt voor elke continue kansverdeling dat 
P(a < X < b) gelijk is aan dat deel van de totale oppervlakte onder de kromme dat tussen 
a en b ligt (zie figuur 6.8). De totale oppervlakte onder de kromme is 1 of 100%. 
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P(a<X<b) 


a b 


Fig. 6.8 Oppervlakte = kans 


Opdracht 
Toon aan dat Р(а < X < Б) = Р(Х > а) – Р(Х >b) 


Om Р(а < X < b) te berekenen, moeten we f(x) integreren van a naar b. Deze integraal 
is niet eenvoudig te bepalen. Tabelleren is ook moeilijk want er bestaan in principe oneindig 
veel waarden voor и еп с. Er bestaan dus ook oneindig veel normale verdelingen. Door 
een eenvoudige transformatie kan elke willekeurige normale verdeling herleid worden tot 
de zogenaamde standaardnormale verdeling. 


6.4.1 Standaardnormale verdeling (u-verdeling) 
De transformatieformule voor de transformatie van een willekeurige normale verdeling (met 
parameters Uu en с) naar de standaardnormale verdeling 1: 

A — u Ze P 


С = dus ook u = 
С С 








(6.6) 


Alle x-waarden worden getransformeerd naar u-waarden, door х te verminderen met het 
gemiddelde u en daarna te delen door de standaardafwijking o. In afbeelding 6.7 is het 
verband tussen x en и schematisch weergegeven. 

Меп kan bewijzen dat de u-waarden weer normaal verdeeld zijn. Uit de figuur leiden we 
direct af dat voor de gestandaardiseerde eenheden geldt dat uy = О en oy = 1. Door de 
transformatie volgens formule (6.6) wordt een kans als P(X > a) getransformeerd naar 


d — 
dÉ 





‚ In figuur 6.8 is de kans P(X > a) gelijk aan het oppervlak onder de 


grafiek van de normale verdeling, rechts gelegen van de lijn x = a. Daarom noemt men 





ыш ИГ а-и 
dit een rechteroverschrijdingskans. In de standaardnormale verdeling is P (v > ) 
О 


uiteraard ook weer een rechteroverschrijdingskans. 


Opmerking 

In het algemeen wordt de normale verdeling met gemiddelde и en variantie о?, weer- 
gegeven door N (u, с?). Als X normaal verdeeld is, schrijven we X ~ NI. с?). De 
standaardnormale verdeling wordt geschreven als NO, 15), 
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x-waarden 





Lä Zo mo pu uto uo uRo 


u-waarden — 5—5 ~~ 0 A a2 3 


Fig. 6.9 De oorspronkelijke schaal (x) en de gestandaardiseerde schaal (u) 


Een groot aantal overschrijdingskansen bij een standaardnormale verdeling is in een tabel 
weergegeven. Doordat de standaardnormale verdeling volledig symmetrisch is om u = 0, 
wordt alleen de rechteroverschrijdingskans in de tabel gegeven. In tabel B1 zijn de rechter- 
overschrijdingskansen gegeven. In figuur 6.10 is een voorbeeld gegeven van een rechter- 
overschrijdingskans. 





І 
ү 
{ 
| 
0 а 
Fig. 6.10 Rechteroverschrijdingskans (P(U > а)) 


Vanwege de symmetrie van de normale verdeling geldt dat: P(U < —a) = P(U > +a). 
Dit betekent dat de linkeroverschrijdingskans P(U < —a) gelijk 15 aan de rechterover- 
schrijdingskans P(U > +a). 

De kans ор een u-waarde kleiner dan een bepaalde negatieve a waarde (linkeroverschrij- 
dingskans) kunnen we daarom vinden door de rechteroverschrijdingskans van die positieve 
a-waarde op te zoeken in de tabel. 


6.4.2 De tabel voor de standaardnormale verdeling 
We zullen nu uitleggen hoe de tabel van de standaardnormale verdeling te gebruiken is. 
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Voorbeeld 5 

De lichaamslengte van volwassen mannen is normaal verdeeld met parameters u = 174 
en o = 7 (men schrijft dus X ~ N(174, 7°)). Wat is de kans dat een willekeurige man 
langer is dan 176,4 cm? 


Oplossing 

We moeten bepalen P(X > 176,4). We transformeren nu de normaal verdeelde varia- 
bele X naar de standaardnormaal verdeelde variabele U. Tegelijk transformeren we de 
waarde х = 176,4 naar de bijbehorende u-waarde van de standaardnormale verdeling 
door de transformatie: 


х= ш 176,4 – 174 


= де 0,34 
С 7 





и = 


Vervolgens zoeken we de rechteroverschrijdingskans bij и = 0,34 op in tabel ВІ. 

Het aflezen gaat als volgt: In de voorkolom zoeken we het eenhedencijfer en het eerste 
decimale cijfer, dus 0,3, en gaan vandaar naar rechts tot de kolom waarboven het tweede 
decimale cijfer — dus 4 — staat. 


0.3 3669 


enz 


We vinden het getal 3669, hetgeen wil zeggen: P(U > 0,34) = 0,3669 ofwel 36,69%. 
Dit is de gevraagde kans op een lengte van meer dan 176,4 cm. 


Opmerking 

Het verdient aanbeveling bij de berekening van de kansen voor een normale verdeling 
steeds een schetsje te tekenen en de gevraagde oppervlakte te arceren. We zien dan 
meteen hoe de gevraagde kans moet worden verkregen, door: 


— rechtstreeks aflezen (bijvoorbeeld bij P(U > a), meta > 0); 

— aftrekken (bijvoorbeeld bij Р(а < U < b) = P(U > Б) — P(U > a), met a en b 
> 0); 

— optellen (bijvoorbeeld bij Р(а < U < b) met negatieve a en positieve b; in dat 
geval kunnen we schrijven P (a < U < b) = P(a < U <0) + P(O < U <b)). 
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6.4.3 Rekenvoorbeelden 
We zullen het gebruik van tabel B1 illustreren met een aantal voorbeelden. 


Voorbeeld 6 
Van een bepaald product wordt per week gemiddeld и = 50 ton omgezet met een stan- 
daardafwijking van с = 5 ton. Aangenomen mag worden dat de omzetten normaal 


verdeeld zijn. Bereken achtereenvolgens: 


a. de kans ор een omzet groter dan 57 ton; 

b. de kans op een omzet kleiner dan 53 ton; 

с. de kans ор ееп omzet tussen 44 en 48 ton; 

d. boven welke grens zal 15% van de omzetten liggen? 


Oplossing 57 — 50 
a P(X 5 571) = fa zs z = РОС > 1,40) 





Opzoeken in tabel B1 leidt tot P(U > 1,40) = 0,0808 
De kans dat de omzet groter is dan 57 ton bedraagt dus 8,08% 





35 40 45 50 59 60 65 


х= 57 
и = 1,40 


Fig. 6.11a 


В. P(X I= PIK > 33) 
53 — 50 





PX > 5з) = Р (U> ) = P(U > 0,60) 


Volgens tabel B1 is P(U > 0,60) = 0,2743 
De gevraagde kans is dus 1 — 0,2743 = 0,7257 
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d. 








х = 53 
u = 0,60 


Fig. 6.116 


We berekenen hier zowel de linkeroverschrijdingskans voor 44 ton, als voor 48 ton: 


44 — 50 
PX <44) = P (U < ) = PU < -1.20 





PIU wë =1,20) = PU > 120) == 0,1151 
48 — 50 





P(X <48) =P (U < ) = P(U < —0,40) 


P(U < —0,40) = P (U > 0,40) = 0,3446 








Fig. 6.11c 


(vervolg) 
De gevraagde kans is: 
Р(44 < X < 48) = P(X > 44) – Р(Х > 48) = 0,3446 — 0,1151 = 0,2295 


Hier hebben we te maken met de omgekeerde situatie, namelijk de overschrijdings- 
kans is gegeven terwijl de waarde voor x niet bekend is maar juist gevraagd wordt. 
We zoeken in tabel B1 welke u-waarde een rechteroverschrijdingskans heeft van 
0,1500. Deze u-waarde is niet exact te vinden. We nemen die u-waarde uit de tabel 
die een overschrijdingskans heeft die het dichtste bij 0,1500 ligt. 

We vinden twee kandidaten: 

и = 1,04 = Р = 0,1492 

F= ЫЗ Bast St? 

De overschrijdingskans bij и = 1,04 ligt dichter bij Р = 0,150 dan de kans bij 
m = L93, 
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х= ji | 
In de transformatieformule и = vullen we daarom voor u = 1,04 in. 


с 
Met m = 50 епос = 5 15 х nu op te lossen: 





х — 50 
104 = 27 5 x= 5045 х 1,04 = 55,2 ton 
0,1500 
35 40 45 50 55 | 60 65 
х=? 
и=? 
Fig. 6.114 
6.5 Benadering van een discrete verdeling door een normale 
verdeling 


We komen nu terug op een eerder gemaakte opmerking. Soms is het mogelijk het reken- 
werk voor een discreet verdeelde variabele te vereenvoudigen door de normale verdeling te 
gebruiken. Maar dan moet wel aan een aantal voorwaarden voldaan zijn. 


6.5.1 Benadering van een binomiale verdeling door een normale verdeling 
De binomiale verdeling met de parameters n en p tendeert voor grotere waarden van n naar 
een symmetrische verdeling. We kunnen dit verschijnsel zelf onderzoeken door naar de 
tabel B2 te kijken. Hoe groter n is, hoe meer symmetrisch de binomiale verdeling is. De 
symmetrie is des te sterker als p dichter bij R ligt. Dit verschijnsel leidt tot de vraag of het 
niet mogelijk is een binomiale verdeling onder bepaalde voorwaarden te benaderen door 
een normale verdeling. 

Het ligt voor de hand om als eerste voorwaarde te stellen dat de normale verdeling, waarmee 
we de binomiale verdeling met de parameters n en p willen benaderen, hetzelfde gemid- 
delde en dezelfde standaardafwijking heeft als de binomiale verdeling. Dit betekent dat die 
normale verdeling een gemiddelde u = np en een standaardafwijking o = „/np(l — р) 
heeft (zie formule (5.6) en formule (5.8) uit hoofdstuk 5) heeft. 

Wat de tweede voorwaarde betreft: de normale verdeling is een continue kansverdeling, 
maar de binomiale verdeling is een discrete kansverdeling. Willen we een (discrete) bino- 
miale verdeling benaderen door een (continue) normale verdeling, dan zal als voorwaarde 
gesteld moeten worden dat de zogenaamde continuiteitscorrectie wordt toegepast. Wat we 
hieronder verstaan blijkt uit figuur 6.12. 
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\ 
P(K= k ) 
fix) 





k ——= 
I 


Fig. 6.12 Benadering door een normale verdeling 


In figuur 6.12 bestaat de discrete binomiale verdeling met de parameters n = 18 en p = ` 


en de continue normale verdeling met de parameters u = ER = бепе = Af 18 ` . ` =2. 
In deze figuur is de ‘binomiale’ kans Р(К = 8) gelijk aan de oppervlakte van de kolom 
behorend bij K = 8 in de binomiale verdeling en is de ‘normale’ kans P(7,5 < X < 8,5) 
gelijk aan de oppervlakte van de figuur begrensd door de Gauss-kromme, de lijnen x = 7,5 


en x = 8,5 en de x-as. 


Opmerking 
Om duidelijk te accentueren dat we overgaan van een discrete naar een continue verde- 
ling, veranderen we de naam van de variabele van К in X. 


Uit de figuuur blijkt dat de eerstgenoemde oppervlakte goed benaderd kan worden door de 
laatstgenoemde oppervlakte. Met andere woorden: de ‘binomiale’ kans Рв(К = 8) met 
п = 18 еп р = р kan benaderd worden door de ‘normale’ kans Py(7,5 < X < 8,5) met 
и = бепо = S 


Opdracht 
Controleer deze uitspraak door de ‘binomiale’ kans Рв(К = 8) en de ‘normale’ kans 
Рү(7,5 < X < 8,5) met dezelfde gegevens voor n en p te berekenen. 


Willen we nu bijvoorbeeld de ‘binomiale’ kans Рв(5 < К < 7) berekenen, dan kan dit 
door te bedenken dat: 
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Рв(5 = К <7) = РВ(К = 5) + Рв(К =6) + Рв(К = 1) 
= Ру(4,5 < X < 5,5) + Ру (5,5 < X <6,5) + Py(6,5 < X < 7,5) 
= Ри{А5 <А « 7,95) 


Opdracht 

Bereken voor het geval van figuur 6.12 de ‘binomiale’ kans Рв(5 < K < 7) en de normale 
benadering Py(4,5 < X < 7,5). Ga vervolgens door berekening van Ру(5 < X < 7) na 
dat weglating van de continuïteitscorrectie een minder goede benadering oplevert. 


Algemene voorbeelden van continuïteitscorrecties zijn: 
Р(К > к) = P(X > Е 4) 
PIK <) = P(X <k +5) 
PIK > К) = Р(Х> К+ 2) 
Р(К <) = Р(Х <k- Ai 


Overigens Кап, wanneer n zeer groot is еп р niet te dicht bij О of 1 ligt, de continuïteits- 
correctie eventueel achterwege gelaten worden: de standaardafwijking o = /np(l — р) 
is dan relatief groot zodat de continuïteitscorrectie weinig invloed heeft ор de waarde u = 
Xx — j 

pen 
Een derde voorwaarde voor het mogen benaderen van een binomiale verdeling door een 
normale verdeling is dat de parameter n, gegeven de waarde van de parameter p, voldoende 
groot moet zijn. Om in te zien welke eisen we daartoe aan de parameter n in relatie tot de 
parameter p dienen te stellen, bedenken we het volgende. 
Omdat in de binomiale verdeling met de parameters n en p de waarde van de discrete 
kansvariabele К niet kleiner kan zijn dan О (K stelt immers een aantal voor), betekent 
benadering van deze verdeling door een normale verdeling met parameters u en ос dat de 
ondergrens van deze normale verdeling eveneens niet beneden О mag liggen. We leggen — 
zoals voor praktische doeleinden gebruikelijk 15 — deze ondergrens bij u — Зо (zie ook figuur 
6.9). Immers, links daarvan ligt vrijwel geen enkele waarnemingsuitkomst. Dat betekent 
dus dat и — Зо > 0 moet zijn. 
Vullen we nu voor u = np en voor o = „/np(l — р) in dan ontstaat de ongelijkheid 


пр —3V/np(l — р) > 0 


Herleiden van deze ongelijkheid leidt tot de voorwaarde dat 
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moet zijn. 

Zoals К in de binomiale verdeling niet kleiner kan zijn dan 0, zo Кап К ook niet groter zijn 
dan n. Immers, K stelt het aantal voorkomende objecten met een bepaald kenmerk voor en 
dit aantal kan uiteraard niet groter zijn dan de steekproef zelf. 

Op overeenkomstige wijze redenerend als hierboven is gedaan, volgt hieruit dat и +30 < л. 
Op dezelfde manier als hierboven volgt hieruit dat n moet voldoen aan de voorwaarde 


TE E a (6.8) 


ht 
Dat er zowel aan formule (6.7) als aan formule (6.8) moet zijn voldaan, betekent dat л 


o ш | bes | 
minstens gelijk moet zijn аап de grootste van de beide waarden 9 J en ыг, 





Opdracht 


1—р 1— р 

на. > £ wanneer p < 1 en dat es < 
р 1 — р е р 1 =p 

Formule (6.7) moet dus gelden wanneer р < 4 еп formule (6.8) moet gelden wanneer 


р>». 


— 








Ga па dat wanneer р > 5. 


Voorbeeld 7 
Iemand werpt 40 keer een zuivere munt op tafel. Het aantal keren dat ‘kop’ boven komt 
wordt K genoemd. Wat is de kans dat van de 40 worpen er 14 met kop boven komen? 


Oplossing 

Het aantal keren ‘kop’ is binomiaal verdeeld met parameters n = 40 en p = d Aan 
voorwaarde (6.8) (еп aan voorwaarde (6.7)) is voldaan, want n = 40 > 9. = = 9. We 
mogen dus de normale verdeling gebruiken als benadering van de binomiale verdeling. 
Voor de parameters van deze normale verdeling moet gelden: 


Normale benadering: и = np = 40 · 0,5 = 20 en 
О ИР — р) = 440 0,5 09 = 10 = 4,102 
PBinomiaal(K = 14) = P Normaal (13,3 ZA 14,5) Ss P(X < 14,5) SS PIX < 13,9) 


Р(Х < 14,5) = PU < Se) = Р(О < —1,74) = 0,0409 





Р(Х < 13,5) = PU < Be) = P(U < —2,06) = 0,0197 


zodat Р(13,5 < X < 14,5) = 0,0409 — 0,0197 = 0,0212 

Was de vraagstelling echter: ‘Gevraagd de kans ор minder dan 14 keer Кор, bij een worp 
met 40 munten’, dan wordt vanwege de continuïteitscorrectie de linker overschrijdings- 
kans berekend van 13,5. 

Dos PalKk = 14) = РАСХ = 13,5). 
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Voorbeeld 8 

In een stad met een zeer groot aantal inwoners is 60% van de kiezers vóór een zekere 
maatregel. Hoe groot is de kans dat een aselecte steekproef van 100 kiezers geen meer- 
derheid oplevert voor genoemde maatregel? (Geen meerderheid betekent K < 50). 


Oplossing 

We passen nu de normale benadering toe om P(K < 50) te berekenen. Ga na dat aan 
de voorwaarden (6.7) en (6.8) voldaan is, met p = 0,6 en n = 100. 

ш = пр = 100-0,6 = 60 


с = /np(l — р) = у 100. 0,6: 0,4 = v24 
Рв(К < 50) = Py(X < 50,5) = PU < #55 = —1,94) = 0,026 


In de steekproeftheorie (hoofdstuk 7 еп 8) en bij het toetsen (hoofdstuk 9) zullen we de 
benadering van een binomiale verdeling door een normale verdeling gebruiken. 


6.5.2 Benadering van een Poisson-verdeling door een normale verdeling 

Evenals de binomiale verdeling kan ook, onder bepaalde voorwaarden, de Poisson-verdeling 
rekentechnisch benaderd worden door een normale verdeling. Als gemiddelde voor een nor- 
male verdeling wordt het gemiddelde л van de Poisson-verdeling genomen en als standaard- 
afwijking o = /À (dit volgens de formules voor de verwachtingswaarde en de standaardaf- 
wijking van een Poisson-verdeling, genoemd in hoofdstuk 5). Hoewel Poisson-verdelingen 
in principe scheef zijn (voor een kleine fractie p) is er voor grote steekproeven toch vol- 
doende symmetrie om een Poisson-verdeling te kunnen benaderen door een normale verde- 
ling. Voorwaarde is dat A = ир > 9. 


Opdracht 
Leid deze voorwaarde zelf af, op een soortgelijke manier als dat in de vorige paragraaf is 
ontstaan. Bedenk daarbij dat u = A en dato = A. 


Ook bij de benadering van een Poisson-verdeling door een normale verdeling moet een 
continuïteitscorrectie worden aangebracht. De procedure is gelijk aan die is besproken bij 
de binomiale verdeling. 


Voorbeeld 9 

Stel we willen voor een Poisson-verdeling met А = 25 de kans ор een uitkomst van 
hoogstens 18 ‘successen’ berekenen. Met behulp van de normale benadering kunnen we 
deze kans bepalen. De parameters voor de normale verdeling zijn dan: и = А = 25 en 
o = VÀ = V25 = 5. We beschouwen de waarde k = 18 als klassenmidden van de 
klasse met de grenzen 17,5 en 18,5. Dus om de kans op hoogstens 18 ‘successen’ te 
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benaderen, bepalen we de linkeroverschrijdingskans Py(X < 18,5). 


Ppoisson(& =; 18) ES Ру(Х ы 18,5) 


185,3 — 23 
= MU ә =т=) 


РЫ = —1,30) = P(U > 1,30) = 0,0968 


Was de vraagstelling: ‘Gevraagd de kans op minder dan 18 successen’, dan moet de 
klasse met 18 niet meegenomen worden. We berekenen dan de linkeroverschrijdingskans 
P(K < 17,5). Deze procedure volgen we ook voor rechteroverschrijdingskansen. 


6.6 Negatief-exponentiële verdeling 


De verdeling van het aantal gebeurtenissen per tijds- of lengte-eenheid is, zoals we gezien 
hebben in hoofdstuk 5, een Poisson-verdeling, als aan een aantal voorwaarden is voldaan. 
Is het gemiddeld aantal gebeurtenissen per tijdseenheid gelijk aan А, dan volgt het aantal 
gebeurtenissen per t tijdseenheden ook weer een Poisson-verdeling. Het gemiddeld aantal 
gebeurtenissen in die t tijdseenheden bedraagt dan u = Àt. 

De tijdsduur tussen het optreden van twee opeenvolgende gebeurtenissen volgt nu een zo- 
genaamde negatief-exponentiële verdeling. 

Deze negatief-exponentiële verdeling wordt veel toegepast in “wachttijd-problemen’. Zowel 
bij de tijd tussen de aankomsten bij bijvoorbeeld een loket of distributiecentrum, als voor de 
verdeling van de behandelingstijden aan het loket of distributiecentrum. Daarnaast speelt 
de negatief-exponentiële verdeling een belangrijke rol bij zogenaamde levensduurverdeling 
van bijvoorbeeld lampen en apparaten. 

De negatief-exponentiële verdeling is een continue verdeling, dit in tegenstelling tot de 
Poisson-verdeling. Toch is er een nauwe verwantschap tussen de negatief-exponentiële ver- 
deling en de Poisson-verdeling. 


6.6.1 Kansdichtheid, verdelingsfunctie en eigenschappen van een negatief- 
exponentiele verdeling 
We zullen eerst een formule afleiden voor de kansdichtheid van de negatief-exponentiële 
verdeling. 
Het aantal gebeurtenissen K per t tijdseenheden wordt door een Poisson-verdeling met 
parameter u = А beschreven: 
k 
PIK =Ё) = Min, met К = 0, 1,2, … 


Voor de tijdsduur T tussen twee opeenvolgende gebeurtenissen geldt: 


An An) 


PCT ss РЕК == Ола? Gjdseenhedénij.= е o 
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Dus P(T > t) = e™ en dus geldt P(T < t) = 1 – e™ 
Voor deze zogenaamde verdelingsfunctie (= cumulatieve kans) van T geldt dan: 


F(= P(T nz le H. voort > 0 (6.9) 


De kansdichtheid f(t) kan afgeleid worden uit de verdelingsfunctie. 
Í 
Immers: volgens de definitie van het begrip kansdichtheid is F(t) = P(T < t) = f fdt. 


0 
Wanneer we hier links en rechts van het =-teken differentiëren naar t, krijgen we volgens 


de wiskunde: Eu) = f(t). De kansdichtheid ontstaat dus door de verdelingsfunctie te 
differentiëren naar t. 


F = Hui = Ae. voort > 0 (6.10) 
(uiteraard is f(t) = F(t) = 0 voort < 0). 
6.6.2 Verwachting en standaardafwijking van een negatief-exponentiële 
verdeling 


Stel dat de variabele T negatief-exponentieel verdeeld is. 
Voor de verwachtingswaarde u van T geldt volgens formule (6.1): 


00 оо оо 50 оо 
p= Е(Т) = |» (Чан | гле а = = fade Hie |е + f Ae“ dt = 
0 0 0 0 


І = 1 
Jo- te=] =0—(——)=- 
k Je 7 ХА 


Dus voor de verwachtingswaarde u van de tussentijden T geldt: 
1 
Evenzo kan men bewijzen dat voor de standaardafwijking van T geldt: 


о = (6.12) 


In figuur 6.11 zijn voor drie waarden van u (merk op: u = 1) de bijbehorende negatief- 
exponentiële verdelingen getekend, waarbij we de kansdichtheid kunnen schrijven als: 


SS Les 


| 
ГО) к= Де тз кзн 
u 
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Fig. 6.13 Negatief-exponentiële verdelingen met u = 1, и = 4 еп и = 10 


Opmerkelijk is dat de ‘top’ van de verdeling steeds ligt bij £ = О en niet ergens in de buurt 
van het gemiddelde. Zonder kennis van de verdelingsfunctie zouden we bij een gemiddelde 
wachttijd van bijvoorbeeld u = 4 uur een concentratie van wachttijden rond de 4 uur ver- 
wachten. Wachttijden tussen О en 2 uur zullen echter frequenter voorkomen dan wachttijden 
tussen 3 en 5 uur. 

In de praktijk wordt veel gewerkt met de rechteroverschrijdingskansen P(T > t) van de ver- 
deling, bijvoorbeeld bij onderhoudsproblemen, levensduur, overlevingskansen enzovoorts. 


PIT эйе TER = е8 (6.13) 


Dit is de kans dat een tijdsduur T groter is dan, of gelijk is aan een gegeven waarde г. Deze 
kans is gelijk aan de kans dat gedurende een bepaalde tijd t geen gebeurtenis optreedt. 
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Voorbeeld 10 
Bij een loket vervoegen zich gemiddeld 80 personen per uur. Indien deze personen 
volkomen toevallig en onderling onafhankelijk arriveren, zullen de tijden tussen twee 
willekeurige aankomsten negatief-exponentieel verdeeld zijn. Werken we niet met uren 
maar met minuten, dan 15 А = А = 1,33 aankomsten рег minuut en bedraagt de gemid- 
delde tussentijd (tijd tussen twee opeenvolgende aankomsten) u = _ — т = 0,73 
minuten. 
Beschouwen we 100 tussentijden dan verwachten we de volgende aantallen: 
voor de klasse met een tussentijd O — 1 minuut: 100{ P(T > 0) — P(T > 1)} 
РОГ 20): == 1 

– — | 
PT sijaa # sg бз 0,2636 
Dus 100{P (T > 0) — P(T > 1)} = 100(1 — 0,2636) = 73,64, afgerond 74. 
Voor de klasse met een tussentijd 1 — 2 minuten: 100{P (T > 1) — P(T > 2)} 
P(T > 2) =e 05 = 00695 
Dus 100{P(T > 1) — P(T > 2)} = 100(0,2636 — 0,0695) = 19,41 ~ 19 (afgerond). 
Uitgewerkt voor alle klassen vinden we dan: 


tussentijd verwachte aantallen 
min afgerond 

П — 1 74 

1—2 19 

2—3 5 

3—4 | 

> 4 1 


Voorbeeld 11 

Een draad wordt gesponnen uit 1000 filamentdraden en gewikkeld ор een klos. Als 
een van de filamentdraden breekt, stopt de opwikkelmachine automatisch. Aangenomen 
mag worden dat draadbreuken volkomen toevallig en onafhankelijk van elkaar optreden. 
Stel dat de machine gemiddeld 4 keer per uur stopt wegens een draadbreuk (А = 4 
br/uur), dan is u = i = R uur = 15 minuten. Na het repareren van een breuk en het 
weer aanzetten van de machine, mag men dus verwachten dat de machine gemiddeld 15 
minuten zal blijven draaien voordat er ergens weer een draadbreuk optreedt. Wat kan nu 
gemiddeld genomen gezegd worden over de resterende tussentijd, als er sinds de laatste 
draadbreuk reeds 15 minuten verstreken zijn? 


Oplossing 
De vraagstelling suggereert een antwoord in de geest van: ‘Het gaat al 15 minuten goed, 
dus moet er wel gauw een breuk komen’. Niets is echter minder waar, want onafhankelijk 
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van de reeds verstreken tussentijd blijft de verwachting voor de tijd tot de volgende breuk 
gemiddeld 15 minuten. 

We zullen deze interessante eigenschap van de exponentiële verdeling nu algemeen be- 
wijzen. Stel dat Т. de levensduur 15 van een apparaat en dat T een negatief-exponentiële 
verdeling volgt. Wat is nu de kans dat het apparaat nog werkt op het tijdstip t + to onder 
de voorwaarde dat het nog functioneert op het tijdstip to? 

Het is duidelijk dat we hier met een voorwaardelijke kans te maken hebben: 


P(T =t +tolT > to) 





Volgens de definitie van voorwaardelijke kansen (zie hoofdstuk 4: P(A | B) = "RS ) 


schrijven we hiervoor: 


PIT > t+toénT > to) B P(T > 1+) Е er Fin) 


= = = ем = P(T >т) 
P(T > t) P(T > to) e 


Conclusie: P(T > t + tolT > to) = P(T > t). Dat wil zeggen de kans dat het 
apparaat nog werkt op het tijdstip t + to, onder de voorwaarde dat het nog functioneert 
op het tijdstip to, is onafhankelijk van to. Anders gezegd: ‘Op elk tijdstip tọ, waarop het 
apparaat nog werkt, is de kansverdeling van de (resterende) levensduur dezelfde, als de 
oorspronkelijke kansverdeling.” Er treedt geen veroudering of slijtage op: ‘zolang het 
apparaat nog werkt, is het geheel nieuw’. 

In wiskundige termen betekent dit: 


E(T |T > to) = to + E(T) 


(het bewijs hiervan zullen we achterwege laten). 


Opgaven 


Stel dat X een normale verdeling volgt met u = 65 en о = 20. 
Wat is de kans dat X een waarde aanneemt: 

kleiner dan 53,2? 

groter dan 70,0? 

tussen 83,2 en 95,7? 

tussen 61,2 en 68,8? 

tussen 35,6 en 45,6? 

kleiner dan 58,6 of groter dan 70,9? 


rop SG SS 


Een bepaald product heeft een brutogewicht van 1175 gram, met een standaardaf wij- 
king van 15 gram. De gewichten zijn normaal verdeeld. Een luchtvaartmaatschappij 
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accepteert dit product voor transport per vliegtuig alleen dan wanneer het minder weegt 
dan 1200 gram. 

In hoeveel procent van de gevallen wordt het product voor transport per vliegtuig ge- 
weigerd”? 


In een jamfabriek vult men machinaal de potten jam. Wanneer het bedrijf er vrijwel 
zeker van wil zijn dat er minstens 250 gram in een pot zit, op welk gemiddeld gewicht 
moet de machine worden ingesteld, opdat de kans op een lager gewicht dan 250 gram 
slechts 1% bedraagt? De standaardafwijking van het vulproces bedraagt 2,5 gram. 


Het kopergehalte van een type messing is normaal verdeeld met een gemiddelde van 
70%. Bij een uitgebreid onderzoek van dit type messing vond men bij 10.000 monsters 
735 monsters met een kopergehalte van meer dan 77,25%. 

Bereken een schatting van de standaardafwijking van het kopergehalte in dit type mes- 
sing. 


In een fabriek maakt men ellipsvormige plaatjes, die men met behulp van schuurpoeder 






afslijpt tot een dikte van 72 micron. De toegestane tolerantie bedraagt + 6 micron. 
Plaatjes die na het slijpen aan de tolerantie voldoen, wordenmet een winst van 0,10 
euro per plaatjes verkocht. Te dunne plaatjes moeten worden vernietigd, hetgeen op 
een schade van 0,25 euro per plaatje komt. Te dikke plaatjes kunnen alsnog worden 
bijgeslepen, hetgeen op een extra investering komt van 2,50 euro per 100 plaatjes. Na 
het bijslijpen voldoen deze plaatjes aan de toleranties. 

De dikte van de geproduceerde plaatjes volgt een normale verdeling met een gemid- 
delde dikte van 70 micron en een standaardafwijking van 4 micron. 


Hoeveel winst kan de fabrikant verwachten bij een productie van 10.000 plaatjes? 


Voor de afmeting van een bepaald product zijn tolerantiegrenzen voorgeschreven. De 
onderste en de bovenste waarde van de afmeting van het product zijn op grond van kwa- 
liteitseisen opgesteld. De onderste tolerantiegrens (onderste waarde) bedraagt 16,90 
mm. De afmetingen van het product hebben een normale verdeling met: u = 17,22 
mm en с = 0,16 mm. Van de geproduceerde exemplaren valt 6,28% buiten de toleran- 
tiegrenzen. 

Waar ligt de bovenste tolerantiegrens”? 


Een fabrikant heeft met zijn afnemers de volgende afspraak gemaakt. De afnemer zal 
uit iedere partij een steekproef nemen van 225 stuks. Ieder van deze 225 exempla- 
ren wordt gecontroleerd op de overeengekomen kwaliteitseisen. Als er meer dan 31 
exemplaren niet aan de eisen voldoen, wordt de partij teruggestuurd om vervangen te 
worden. Als de fabrikant een partij aflevert met 10% uitval, hoe groot is de kans dat de 
fabrikant de partij terug krijgt? 


10. 


11. 


12. 


13. 


Continue kansverdelingen 





Bij gebruik van een zekere koffieautomaat worden de bekertjes, die elk maximaal 108 


ml kunnen bevatten, gevuld met koffie. De hoeveelheid koffie die de automaat per 
gebruik levert, volgt een normale verdeling met u = 100 ml епо = 4,08 ml. 

Bereken de kans dat bij honderd maal gebruik van de automaat het tenminste eenmaal 
voorkomt dat er een bekertje overstroomt? 


In een stad met een groot aantal inwoners is 60% vóór een zekere maatregel. Hoe groot 
is de kans dat een aselecte steekproef van 100 inwoners geen meerderheid oplevert voor 
de genoemde maatregel (de meerderheid is de helft plus één stem)? 


Het aantal klanten dat een loketbeambte van een bioscoop per minuut bedient, is ge- 
middeld 2 (en Poisson-verdeeld). Hoe groot is de kans dat een bediening meer dan 10 
seconden duurt? 


Op een bepaalde plaats staat een openbare telefooncel. De gespreksduur T van een 
telefoongesprek is negatief-exponentieel verdeeld met een gemiddelde van 2 minuten 
per gesprek. 
a. Hoe groot is de kans dat een gesprek meer dan 2 minuten duurt? 
b. Bepaal de gemiddelde kosten per gesprek als de kosten per gesprek zijn: 

— 0,1 euro bij een duur Т van hoogstens 2 minuten; 

— (2t + 0,5) euro bij ееп duur T van meer dan 2 minuten. 


Een randomgenerator op een zakrekenmachine produceert willekeurige getallen X tus- 

sen Оеп 1. 

a. Welke verdeling volgt Х, aangenomen dat de generator goed ‘random’ is? Geef 
ook de kansdichtheid van de verdeling. 

b. Bepaal het gemiddelde en de standaardaf wijking van X. 


Het aantal verkeersongevallen op een druk kruispunt is Poisson-verdeeld met een ge- 

middelde van 15 per maand. 

a. Hoe groot is de kans dat op dat kruispunt in een bepaalde maand meer dan 15 
verkeersongevallen plaatsvinden”? 

b. Neem aan dat een maand uit 30 dagen bestaat. Wat is de kans dat tussen 2 opeen- 
volgende ongevallen meer dan 3 dagen ligt? 

c. Gedurende een periode van 5 dagen is er geen ongeluk gebeurd op het betreffende 
kruispunt. Hoe groot is de kans dat gedurende de volgende 2 dagen er nog steeds 
geen ongeluk 15 gebeurd”? 





F Inleiding tot de 
 steekproeftheorie 





7.1 Inleiding 


Bij het nemen van steekproeven komt het vaak voor dat we te maken hebben met twee 
of meer kansvariabelen, die om bepaalde redenen bij elkaar moeten worden opgeteld. We 
denken hier bijvoorbeeld aan de totaaldikte van twee op elkaar gelaste strippen of aan de 
kwartaalomzetcijfers van een bepaald artikel als som van de drie opeenvolgende maand- 
omzetcijfers van dat artikel. Ook komt het voor dat twee verschillende kansvariabelen met 
elkaar vergeleken moeten worden qua grootte. We kijken dan naar het verschil van de vari- 
abelen. Denk hierbij bijvoorbeeld aan de speling tussen een moer en de bijbehorende bout 
als het verschil tussen de (inwendige) moerdiameter en de boutdiameter. Ten slotte komt het 
vaak voor dat de verschillende waarden die behoren bij (een aantal exemplaren van) dezelfde 
kansvariabele moeten worden opgeteld. Denk hierbij aan de bepaling van het gemiddelde 
van een steekproef. Daartoe worden bijvoorbeeld n waarnemingsuitkomsten, behorend bij 
dezelfde variabele opgeteld, waarna de som door n gedeeld wordt. 

Bij dit soort samenvoegingen van twee of meer kansvariabelen rijzen er vragen ten aanzien 
van de vorm van de verdeling van de samengestelde variabele en ten aanzien van het ge- 
middelde en de standaardafwijking van die verdeling. Het ligt voor de hand dat er voor 
het gemiddelde en de standaardafwijking van de som- of verschilvariabele een relatie 15 
met het gemiddelde en de standaardafwijking van de samenstellende kansvariabelen. We 
zullen daarom in dit hoofdstuk de theorie van het optellen en het aftrekken van twee of 
meer kansvariabelen aan de orde stellen. In aansluiting daarop zullen we het gedrag van de 
som van meerdere (onderling onafhankelijke) kansvariabelen respectievelijk het gedrag van 
het gemiddelde van aselecte steekproeven uit een populatie vastleggen in de zogenaamde 
centrale limietstelling. Deze stelling vormt de basis voor de theorie, die wij de steekproef- 
theorie zullen noemen. In het volgende hoofdstuk zullen we die theorie daadwerkelijk gaan 
toepassen. 
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7.2 De som en het verschil van twee normaal verdeelde onder- 
ling onafhankelijke kansvariabelen 


In deze paragraaf zullen we bekijken wat het betekent als twee kansvariabelen bij elkaar 
worden opgeteld of van elkaar worden afgetrokken. 


7.2.1 De som van twee onafhankelijke normaal verdeelde kansvariabelen 
Stel dat we beschikken over twee dozen A en B met daarin een groot aantal metalen strippen. 
De dikte X van de strippen in doos A is normaal verdeeld verondersteld met een gemiddelde 
uy = 1,6 mm en een standaardafwijking ox = 0,20 mm. De dikte У van de strippen in 
doos B is eveneens normaal verdeeld verondersteld, echter met een gemiddelde uy = 1,5 
mm en een standaaardafwijking су = 0,15 mm. We pakken willekeurig een strip uit doos 
А, meten hiervan de dikte x;, pakken vervolgens willekeurig een strip uit doos B, meten 
hiervan de dikte у;, lassen de beide strippen op elkaar en meten ten slotte de dikte z; van 
de ‘dubbelstrip’. Deze procedure wordt herhaald totdat een van de twee dozen leeg 15. Op 
deze wijze ontstaat ееп groot aantal sommen z; = х; + у; (i = 1, 2, …). Voor de eerste 10 
dubbelstrippen krijgen we bijvoorbeeld het volgende resultaat: 


| xi (mm) | yi (mm) | Zi = Xi + yi (тт) | 


сч. 


| 1,45 1,60 3,05 
Д 1,56 1,48 3,04 
3 1,80 1,74 3,32 
4 1,38 1,34 2,72 
5 1,65 1,45 3,10 
6 1,70 1,65 3,39 
d 1,61 1,30 2,91 
8 1,83 1,47 3,30 
9 1,66 1,35 3,01 
10 1,90 1,58 3,48 


Stel dat we van de vele waarden z; een relatieve frequentieverdeling opstellen en daar een 
histogram van maken. Dit histogram kan zodanig verticaal geschaald worden dat het op- 
pervlak eronder 1 is. Dan zal — zoals we dadelijk in een stelling zullen formuleren — deze 
relatieve frequentieverdeling beschreven kunnen worden door een Gauss-kromme met een 
gemiddelde иу = 3,1 mm en een standaardafwijking o z = 0,25 mm. 

Dat de kansvariabele Z (de dikte van de dubbelstrippen) normaal verdeeld blijkt te zijn, 
komt doordat X en Y (de dikten van de beide afzonderlijke strippen) zelf ook normaal 
verdeeld zijn (een bewijs van deze stelling wordt achterwege gelaten). Zouden X en/of Y 
niet normaal verdeeld zijn, dan zou ook Z niet normaal verdeeld zijn. 
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Het gemiddelde van de somvariabele Z blijkt gelijk te zijn aan 3,1 mm. Dit is een gevolg 
van het feit dat pz = ду uy = 1,64 1,9 = 3,1, 

Een dergelijke stelling geldt niet voor de standaardaf wijkingen maar wel voor de varianties: 
05 = 0% +07 = (0,20)? + (0,15)? = 0,0625, zodat oz = 0,25. Deze stelling is 
echter niet algemeen geldig! De stelling geldt weliswaar ook wanneer X en Y niet normaal 
verdeeld zijn, maar dan wel onder de voorwaarde dat X en Y onderling onafhankelijk zijn, 
dus wanneer de waarden van X en Y willekeurig — onafhankelijk van elkaar — worden 
gekozen.! 


Het bovenstaande 15 in de volgende stelling te formuleren. 


Stelling 1 

Als X en Y normaal verdeeld zijn, is de som Z = X + Y normaal verdeeld. Het 
gemiddelde van Z is de som van de gemiddelden van X en Y en de variantie van Z is — 
mits X en Y onderling onafhankelijk zijn — gelijk is aan de som van de varianties van X 


En. E, 
Wat betreft het gemiddelde en de variantie van de som Z = X + Y geldt dus in formu- 
levorm: 
Hz = Их + Hy (7.1) 
оў = ox +oy (1.2) 
Voorbeeld 1 


Stel dat de op elkaar gelaste stripcombinatie (in totaal) minstens 2,8 mm dik moet zijn, 
hoeveel procent ervan zal dan niet aan deze eis voldoen? 


Oplossing 

We weten nu dat Z normaal verdeeld is met een gemiddelde и> = 3,1 mm en een 
standaardafwijking o z = 0,25 mm. 

We vinden dan: 


2,8 — 3,1 
Р <29 = P (U < с" 


0,25 
Van ongeveer 11,5% van de dubbelstrippen de zal dikte niet aan de gestelde eis voldoen. 


) = P(U < —1,20) = P(U > 1,20) = 0,1151. 


Voorbeeld 2 
Stel dat steeds twee willekeurig gekozen strippen uit doos A op elkaar gelast worden. 
Hoe is de dikte van de dubbelstrippen verdeeld? 


l А X en Y wel in zekere mate van elkaar afhankelijk zijn, zie paragraaf 10.8. 
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Oplossing 

Er geldt nu: Z = X + X. Let op: dit is niet gelijk aan 2X, hoe vreemd dat ook lijkt. 
Er wordt een willekeurige waarde van X bij een andere willekeurige waarde van X 
opgeteld. De beide waarden hoeven niet hetzelfde te zijn! 

Passen we stelling 1 toe, dan blijkt dat Z normaal verdeeld is met uz = Uy +их = A 


епо2, = 02 +02, = 20%, zodat oz =oxV2. Blijkbaar is uz = 2 · 1,6 = 3,2 mm en 
oz = 0,202 ~ 0,28 mm. 


Opdracht 

Als een dubbelstrip ontstaat door samenvoeging van twee strippen uit doos A, waarbij net 
zo lang naar de tweede strip gezocht wordt tot men er een heeft gevonden die precies even 
dik is als de eerste strip, wat is dan het antwoord op de vraag van voorbeeld 1? Bedenk dat 
voor elke i geldt dat у; = x; en dus z; = x; + x; = 2х;. Alle waarnemingsuitkomsten 
worden nu dus feitelijk met 2 vermenigvuldigd. 


1.2.2 Het verschil van twee onafhankelijke normaal verdeelde kansvariabelen 

Stel dat men in een ijzerhandel onder andere moeren en bouten verkoopt die in afzonder- 
lijke bakken in voorraad worden gehouden. Bekend is dat de binnendiameter X van de 
moeren normaal verdeeld 15 met een gemiddelde uy = 5,8 mm en een standaardafwijking 
ox = 0,60 mm. Ook de diameter Y van de bouten is normaal verdeeld, echter met een 
gemiddelde uy = 5,0 mm en een standaardafwijking су = 0,45 mm. Wanneer men bij 
iedere willekeurig gepakte moer een willekeurig gepakte bout voegt, kan men zich afvragen 
of de bout goed bij de moer past. Met andere woorden: past de bout wel bij de moer en is 
de speling niet te groot? We kunnen deze vraag beantwoorden als we naar het verschil van 
de diameter van moer en die van de bout kijken. Voor de i-de gepakte moer-boutcombinatie 
zal de speling, dat wil zeggen het verschil v; tussen de moerdiameter x; en de boutdiameter 
у; gelijk zijn aan v; = х; — yi, zodat in het algemeen geldt dat V = X — Y. De variabele 
V = X — Y is te beschouwen als de som van de onderling onafhankelijke normaal ver- 
deelde variabelen X en —Y, zodat V = X + (—Y). Volgens stelling 1 15 V dan normaal 
verdeeld met volgens formule (7.1) een gemiddelde uy = EIN) = E(X) + E(-Y) = 
E(X) — Е(Ү) = üy — uy = 5,8 — 5,0 = 0,8 mm еп met volgens formule (7.2) een 
variantie т. = var(V) = var(X) + var(—Y) = var(X) + var (Y). 

In dit geval geldt dus 


oi =0% +0% = (0,60)? + (0,45)? = 0,5625 zodat o y = 0,75 mm 
Het bovenstaande kunnen we in de volgende stelling formuleren. 
Stelling 2 


Het verschil V = X — Y van twee kansvariabelen X en Y is normaal verdeeld, wan- 
neer zowel X als Y normaal verdeeld is. V heeft een gemiddelde dat gelijk is aan het 
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verschil van de gemiddelden van X en Y en een variante die — mits X en Y onderling 
onafhankelijk zijn — gelijk is aan de som van de varianties van X en Y. 
Voor V = X — Y geldt dus in formulevorm: 


Hy = их Hy (7.3) 
oi, = o% + 0$ (7.4) 
Voorbeeld 3 


Van hoeveel procent van de moer-boutcombinaties zal de speling groter zijn dan 0,5 
mm? 


Oplossing 
Een moer-boutcombinatie zal een speling hebben van meer dan 0,5 mm wanneer er geldt: 
x = Y > 0,5. Met V = X – Y; uy = 0,8 en o y = 0,75 vinden we dan: 





Р(Х ~ ҮҮ 5 05) = PIER a (Isi 
= Р(0 > 950) = PU > 040) 
I — Р(О < 040) = 1-0,34466 = 0,6554 


Daarom zal van ruim 65% van de moer-boutcombinaties de speling groter zijn dan 0,5 
mm. 


Opdracht 

Beantwoord dezelfde vraag als in voorbeeld 3 wanneer een moer-boutcombinatie ontstaat 
door samenvoeging van een moer en een bout, waarbij (geautomatiseerd) net zo lang naar 
een moer gezocht wordt tot men er een heeft gevonden waarvan de diameter precies 10% 
meer bedraagt dan die уап de bout, zodat dan voor elke 1 geldt dat x; = 1,1 — y; dus 
zi = (1,1)y; — yi = О,1у;. 


7.3 De som van meer dan twee onderling onafhankelijke kans- 
variabelen: de Centrale Limietstelling 


In paragraaf 7.2 hebben we in de stellingen 1 en 2 vastgelegd dat de som respectievelijk 
het verschil van twee onderling onafhankelijke normaal verdeelde kansvariabelen zelf ook 
weer normaal verdeeld is. Het ligt voor de hand dat de stellingen 1 en 2 en de formules 
(7.1) t/m (7.4) kunnen worden uitgebreid wanneer meer dan twee onderling onafhankelijke 
kansvariabelen worden opgeteld. Dit leidt tot de volgende stelling. 


Stelling 3 
Desom Z = Ait ADE AB se + Х, van n normaal verdeelde kansvariabelen X; 
(1 = 1, 2,3, ..., п) bezit een normale verdeling. Het gemiddelde van Z is gelijk aan de 
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som van de gemiddelden van de afzonderlijke kansvariabelen. De variantie is — mits de 
afzonderlijke kansvariabelen paarsgewijs onafhankelijk zijn — gelijk aan de som van de 
varianties van de afzonderlijke kansvariabelen. 

Wat betreft het gemiddelde en de variantie van Z = Х| + Хә + Хз + … + Xn, geldt 
dus in formulevorm: 


Hz Жу, T Hg, + Hg, +... + Ьу, (7.5) 
с5, = 07, + е, + сў, +... + e, (1:6) 


Voorbeeld 4 

Stel dat we beschikken over 10 dozen. In elke doos bevinden zich vele genummerde 
plaatjes. De getallen op de plaatjes bezitten per doos een normale verdeling met gemid- 
delde en standaardafwijking zoals weergegeven in de volgende tabel: 


doos nr. i ] 2 5 4 5 6 d 8 9 10 


77 80 75 50 60 40 35 40 70 65 35 
o 2 a aa ag 5 3 A 5 


Uit ieder van de tien dozen nemen we een plaatje, noteren het getal dat er op staat en 
bepalen de som 5 van deze 10 getallen. Hoe groot is de kans dat 5 groter zal zijn dan 
580? 


Oplossing 

Omdat de getallen op de plaatjes per doos normaal verdeeld zijn, zal volgens stelling 
3 ook de som A normaal verdeeld zijn en wel volgens formule (7.5) met gemiddelde 
ис = 80 + 75 + 50 + 60 + 40 + 35 + 40 + 70 +65 + 35 = 550 en volgens formule 
(7.6) met variantie с = 22 +32 4+ 42 +22 + 52 + 6? + 52 + 32 4 42 + 5? = 169 
dus met standaardafwijking os = 13. 

We vinden dan: 


580 — 550 


P(S> 580) =P (U > T 


) = P(U > 2,31) = 0,0104 


Dat de in stelling 3 bedoelde som Z = Ху + Хо + Хз + ... + Xn normaal verdeeld is, komt 
door het feit dat elk van de variabelen X; (i = 1, 2, 3, ..., п) zelf ook normaal verdeeld 15. 
Echter, ook wanneer de samenstellende variabelen zelf geen van alle of niet alle normaal 
verdeeld zijn, zal toch hun som, althans bij goede benadering, wel normaal verdeeld zijn. 
Deze benadering zal des te beter zijn naarmate het aantal samenstellende variabelen (n) 
groter is. Of anders gezegd: hoe groter het aantal samenstellende variabelen is, hoe minder 
noodzakelijk het is dat deze normaal verdeeld zijn om hun som wel normaal verdeeld te 
doen zijn. 
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п 
Wat het speciale geval Z = Xi + Kat Kat ...+ Xn = A Х; betreft, is dit opmerkelijke 
i=l 
feit vastgelegd in stelling 4, de Centrale Limietstelling van Laplace. 


Stelling 4 r 


De som Z = УГ X; van n kansvariabelen X; (i = 1, 2, 3, ..., n) die al of niet normaal 
i=] 
verdeeld zijn, is bij goede benadering normaal verdeeld — en des te beter naarmate n 


groter is. Het gemiddelde van Z is gelijk aan de som van de gemiddelden van de af- 
zonderlijke kansvariabelen. De variantie van Z is — mits de afzonderlijke kansvariabelen 
paarsgewijs onafhankelijk zijn — gelijk aan de som van de varianties van de afzonderlijke 
kansvariabelen. 


n 
Wat betreft het gemiddelde en de variantie van de in stelling 4 bedoelde som Z = У X; 
i=] 
geldt in formulevorm: 


Mz = ON Hi (7.7) 


ту = У а? (7.8) 


De formules (7.7) еп (7.8) gelden zowel in het geval dat de Х; (1 = 1, 2, 3, ..., п) alle 
normaal verdeeld zijn als in het geval dat zij geen van alle of niet alle normaal verdeeld zijn. 
Bedenk wel dat de gesommeerde variabelen onderling onafhankelijk moeten zijn. 


Voorbeeld 5 

Bij de fabricage van een bepaald soort product worden om een metalen staaf, die op een 
voetstukje is gemonteerd, afwisselend aluminium ringen en aluminium platen gescho- 
ven, eerst een ring, dan een plaat, vervolgens weer een ring, enzovoorts. Na de laatste 
(de 16%) ring wordt het geheel afgesloten met een schroefdop, waarna het nog boven de 
dop uitstekende stuk van de staaf wordt afgezaagd. Bereken het percentage producten 
waarbij het staafrestant langer is dan 8 mm wanneer we beschikken over de volgende 
gegevens: 


— де lengte van de metalen staven is normaal verdeeld met een gemiddelde van 130 
mm en een variantie van 0,21 тт; 

— deringen hebben een dikte met een gemiddelde van 5 mm en een standaardafwijking 
van 0,2 mm; 

— de platen hebben een dikte met een gemiddelde van 2 mm en een standaardafwijking 
van 0,3 mm; 
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— Яе afsluitdoppen hebben een dikte met een gemiddelde van 10 mm en een standaard- 
afwijking van 0,6 mm; 

— de dikte van de schroefdoppen is wel, maar de dikte van de ringen en de platen is 
niet normaal verdeeld; 

— аПе variabelen zijn onderling onafhankelijk. 


Oplossing 

We noemen de dikte van de ringen (16 stuks), de platen (15 stuks) en de schroefdop 
achtereenvolgens Ё, Р en D, de lengte van de staven en staafrestanten achtereenvolgens 
Sen V en de hoogte van de ring-plaat-dop combinatie C. Volgens de verstrekte gegevens 
geldt dan: 

C=R+P++R+...+R+P +R +D еп volgens stelling 4 is C normaal verdeeld 
(ook al zijn Ren Р dat niet). Verder geldt er dat У = 5 — С normaal verdeeld is omdat 
zowel S als С dat is. We vinden dan: 


volgens formule (7.7): рс = ир + ир + ир +... + ир + ир + Ир + Шр 
16ur + 15ир + ир = 80 + 30 + 10 = 120. 


volgens formule (7.8): ez = @ Е съ + б — mt съ + ok —- ez — e == 
16-05 + 15:05 + 02 = 
0,64 + 1,35 + 0,36 = 2,35. 

volgens (7.3): Hy = pgi = Be = 130 — 120 = 10, 

volgens (7.4): о =g; +02 = 0,21 + 2,35 = 2,56, 
dus Oy = Lë 


Hieruit volgt: 
— 10 





Pv>8=P(U> 7 ) = PU > 125 


H 


=] = PU lj == 1 == PIG > 1,25) —1 = 011056 = 0,8944 


Daarom zal bij bijna 90% van de producten het staafrestant langer zijn dan 8 mm. 


We zullen de Centrale Limietstelling in dit boek niet bewijzen. Overigens wordt de stelling 
vaak iets anders geformuleerd dan wij hierboven in stelling 4 hebben gedaan. Stelling 4 
heeft betrekking op de som van een aantal paarsgewijs onafhankelijke al of niet normaal 
verdeelde kansvariabelen met verschillende gemiddelden en verschillende standaardafwij- 
kingen. In zijn andere formulering heeft de Centrale Limietstelling betrekking op het ge- 
middelde van een aantal paarsgewijs onafhankelijke al of niet normaal verdeelde kansvari- 
abelen met hetzelfde gemiddelde en dezelfde standaardafwijking. In paragraaf 7.4 (stelling 
5) komen we hierop terug. 
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Men zou zich bij stelling 4 kunnen afvragen hoe groot de daarin genoemde n moet zijn om te 
kunnen zeggen dat de som van n niet-normaal verdeelde kansvariabelen toch een normale 
verdeling bezit. Het antwoord op deze vraag hangt niet alleen af van de mate waarin de 
diverse afzonderlijke verdelingen van een normale verdeling afwijken, maar ook van de 
grootte van de verschillen tussen hun gemiddelden dan wel standaardafwijkingen. In het 
geval dat geen van de л variabelen normaal verdeeld 15, hanteert men in de praktijk vaak de 
vuistregel dat n minstens 25 moet zijn om te kunnen zeggen dat de som van die variabelen 
normaal verdeeld is. 

De Centrale Limietstelling is een van de belangrijkste stellingen uit de statistiek en wordt 
vaak toegepast in de steekproeftheorie. 


7.4 Het gemiddelde van een aselecte steekproef 


Wanneer de in stelling 4 bedoelde kansvariabelen alle hetzelfde gemiddelde џ en dezelfde 
standaardafwijking o bezitten, gaat stelling 4 over in de volgende stelling. 


Stelling 5 


De som Z = У X; van п kansvariabelen X;, die voor elke i (i = 1, 2, 3, ....п) al of 
i=] 

niet normaal verdeeld zijn met hetzelfde gemiddelde u en dezelfde standaardafwijking 

с, bezit bij benadering een normale verdeling waarvan het gemiddelde gelijk is aan: 


Ит =ñ- [д (7.9) 


Voor grote waarden уап n is deze benadering beter dan voor kleine waarden уап л. 
De variantie van Z is - mits de kansvariabelen paarsgewijs onafhankelijk zijn - gelijk 
aan 


SCHT a (7.10) 


Voorbeeld 6 

In een magazijn dat een hoogte heeft van 312 ст, worden metalen schijven opgeslagen. 
Men heeft de gewoonte om stapels te maken van 25 schijven hoog. De dikte D van de 
schijven heeft een gemiddelde up = 12 cm en een standaardafwijking o p = 2 cm. 

Bij hoeveel procent van de stapels zal het niet lukken deze compleet te maken? 


Oplossing 

De hoogte H van stapels van 25 schijven is volgens stelling 5 normaal verdeeld, onge- 
acht of de dikte D van de schijven zelf dat wel of niet is. Volgens formule (7.9) heeft H 
een gemiddelde ир = 25 - up = 25 · 12 = 300 cm en volgens formule (7.10) heeft H 
een variantie 0% Ss di: ez, = 25.2° = 100, dus een standaardafwijking ou = 10 cm. 
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De gevraagde kans berekenen we nu als volgt: 


312 — 300 
20) = Р{ эж Ae Ы 


PH > 312) = Р (И > 


Bij ongeveer 11,5% van de stapels zal het niet lukken deze compleet te maken. 


Opdracht 

Beredeneer waarom het in het laatste voorbeeld onjuist 15 te stellen dat Н = 25. D. Ga 
na ook na welk gevolg deze onjuiste veronderstelling heeft voor het gemiddelde en de stan- 
daardafwijking van Н. 


Stel nu dat we beschikken over een al of niet normaal verdeelde populatie met gemiddelde 


n 

ш en standaardafwijking т. Uit stelling 5 volgt dat de som z = 3 x; van de n paarsge- 
i=l 

wijs onafhankelijke waarnemingsuitkomsten van een aselecte steekproef uit deze populatie 


beschouwd kan worden als een waarde van de normaal verdeelde kansvariabele Z met ge- 
° x ne 2 ez 2 Qr ‹ 13 1 r — Р 
middelde uz = пи en variantie o = по, dus standaardafwijking o z = o y/n. 


п 
; Xi 
к= 


' e =| 
Het gemiddelde х = — = van een aselecte steekproef van n stuks uit een al of 
n n 


niet normaal verdeelde populatie met gemiddelde и en standaardafwijking с kan daarom 





beschouwd kan worden als een waarde van de normaal verdeelde kansvariabele X = — 
n 


„= ЖШ o on o 
met gemiddelde и = EN ene и en standaardafwijking сў = 2 а vn _ 
n 


n n no Jn 


Dit leidt tot de volgende stelling. 





Stelling 6 
Stel we nemen een aselecte steekproef van n stuks uit een (al of niet) normaal verdeelde 
populatie met gemiddelde и en standaardafwijking с. Stel ook dat de n waarnemings- 
uitkomsten x; (i = 1, 2, 3, ..., п) van de steekproef paarsgewijs onafhankelijk zijn. Het 
n 
A. Xi 
gemiddelde х = ‘= 





is dan ееп waarde van de kansvariabele X, die (althans bij bena- 


n 
dering en des te beter naarmate л groter is) normaal verdeeld is met gemiddelde 


их = ш (ЛЬШ) 


еп met standaardaf wijking 
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Voorbeeld 7 

Door een numeriek bestuurd meetapparaat worden per uur duizenden glazen buisjes op 
hun inwendige diameter gesorteerd in de kwaliteitsklassen ‘large’, ‘medium’ en ‘small’. 
In de kwaliteitsklasse ‘medium’ dient de gemiddelde diameter 10 mm te bedragen met 
een standaardafwijking van 0,05 mm. 

Elk kwartier neemt de automaat uit ieder van de drie kwaliteitsklassen een steekproef 
van 16 buisjes, meet hiervan de inwendige diameter en berekent het gemiddelde van de 
16 waarnemingsuitkomsten. Wanneer dit gemiddelde voor de steekproef uit de klasse 
‘medium’ minder dan 9,98 mm of meer dan 10,02 mm bedraagt, wordt het sorteerproces 
gestopt. Hoe groot is de kans dat dit (ten onrechte) gebeurt, wanneer toch aan de voor 
de klasse ‘medium’ gestelde eis is voldaan? 


Oplossing 
We nemen een steekproef уап 16 stuks uit een populatie met een gemiddelde u = 10 
еп een standaardafwijking с = 0,05 en bepalen daarvan het gemiddelde. Voor het 


beantwoorden van de gestelde vraag dienen we te berekenen hoe groot de kans is dat het 
steekproefgemiddelde kleiner is dan 9,98 of groter is dan 10,02. Volgens stelling 5 zijn 
de gemiddelden van 16 waarnemingsuitkomsten uit een populatie met een gemiddelde 
u = 10 mm en een standaardafwijking с = 0,05 mm normaal verdeeld. Volgens 
formule (7.11) hebben die steekproefgemiddelden een gemiddelde иу = u = 10 mm. 


Volgens formule (7.13) is de standaardafwijking van de steekproefgemiddelden o = 
o 0,05 


Ko 


= 0,0125 mm. We vinden voor deze kans: 





Р(Х < 9,98 of X > 10,02) = P(X < 9,98) + P(X > 10,02) 


= PIU< en 
0,0125 


10,02 — 10 
ЫРЫ men 
0,0125 
= P(U < —1,60) + P(U > 1,60) 


2. PIU > 1,60) = 2-0,0548 = 0,1096 


Stelling 5 is in feite een bijzonder geval van de Centrale Limietstelling zoals geformuleerd 
in stelling 4 en is eveneens van groot belang voor de steekproeftheorie. 

De in stelling 5 genoemde voorwaarde dat de waarnemingsuitkomsten in de steekproef 
paarsgewijs onafhankelijk moeten zijn, betekent in feite dat de steekproef met terugleg- 
ging genomen moet worden. Ieder exemplaar dat in de steekproef wordt opgenomen, zou 
dus eerst moeten worden teruggelegd alvorens het volgende exemplaar gepakt kan worden, 
waarbij elke trekking aselect (willekeurig) dient te geschieden. In de praktijk wordt hier- 
aan meestal niet voldaan. Er wordt immers meestal zonder teruglegging getrokken. Toch 
kan in de meeste gevallen formule (7.12) wel degelijk gebruikt worden. Dit komt doordat 
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de steekproef meestal klein is ten opzichte van de populatie. Daardoor zal, ook al is de 
steekproef zonder teruglegging, de verhouding van het aantal elementen met een bepaald 
kenmerk en de populatiegrootte nauwelijks veranderen. Indien de steekproef (zonder te- 
ruglegging) relatief groot is ten opzichte van de populatie, moet een correctiefactor worden 
aangebracht: 

Aangetoond kan worden dat in het geval van een aselecte steekproef zonder teruglegging de 
essentie van stelling 5 ongewijzigd blijft, echter formule (7.12) moet dan vervangen worden 
door 


е e (7.13) 


waarin N de populatiegrootte is. 
Uit formule (7.13) blijkt dat, naarmate de populatieomvang N groter is ten opzichte van 


М —п 
de steekproefgrootte n, de factor Ул 1 - steeds meer de waarde 1 benadert, zodat de 


waarde van de standaardafwijking o у volgens formule (7.13) steeds meer de waarde van de 
standaardafwijking с у volgens formule (7.12) benadert. 

Uit het voorafgaande volgt dat voor aselecte steekproeven zonder teruglegging formule 
(7.12) bij goede benadering bruikbaar is, mits de steekproeven niet al te groot zijn ten op- 
zichte van de populatie. In de praktijk legt men als vuistregel de grens bij een factor 10: 
Gebruik (7.12) wanneer N > 10n en gebruik (7.13) wanneer N < 10n. 


Opgaven 


1. Een bedrijfskundige afdeling van een fabriek heeft de organisatie van het werk zodanig 
ingericht dat een operator twee machines tegelijk kan bedienen. Van machine А zijn 
de bedieningstijden normaal verdeeld met een gemiddelde van 200 seconden en een 
standaardafwijking van 24 seconden. Ook van machine B zijn de bedieningstijden 
normaal verdeeld; het gemiddelde bedraagt 324 seconden en de standaardafwijking 32 
seconden. Gezien de organisatorische opstelling is het niet gewenst dat de operator aan 
de bediening van beide machines samen meer dan 10 minuten besteedt. Hoe groot is 
de kans dat dit toch zal gebeuren? 


2. Een automaat monteert ronde pennetjes in cilindervormige buisjes. 
Er wordt telkens aan een willekeurig buisje een willekeurig pennetje toegevoegd. Wan- 
neer de samenstelling niet past, wordt zowel het buisje als het pennetje weer in het 
aanvoercircuit opgenomen. 
De diameters van de beide onderdelen zijn normaal verdeeld met voor de buisjes een 
gemiddelde van 11,2 mm en een standaardafwijking van 0,50 mm en voor de pennetjes 
een gemiddelde van 10,2 mm en een standaardafwijking van 0,375 mm. 
Hoe groot is de kans dat een buisje en het bijgevoegde pennetje weer in het aanvoercir- 
cuit worden opgenomen? 








Inleiding tot de steekproeftheorie hoofdstuk 7 147 





Vier atleten A, B, C en D vormen samen een estafetteteam. Gedurende een langere pe- 
riode werden hun trainingstijden gemeten over de afstand 400 m. Deze bleken normaal 
verdeeld te zijn met (in seconden) gemiddelden ид = 48,4; ив = 50,6; ис = 49,8 en 
Шр = 51,2 еп standaardafwijkingen oa = 1,2; ов = 2,1; ос =2,4enop = 2,8. 
Tijdens ееп bepaald sportevenement zal door het viertal worden getracht het bestaande 
baanrecord over de 4 x 400 m (zijnde 190,5 seconden) te breken. 

a. Hoe groot is de kans dat de recordpoging zal slagen? 

b. Hoe groot is de kans dat B een betere tijd maakt dan A? 

с. Ное groot is de kans dat D de snelste tijd maakt van de vier? 


Een bepaald soort flessen is tijdens transport aan breuk onderhevig. Wanneer een exem- 

plaar met een breeksterkte B tijdens transport een kracht K ondervindt die groter is dan 

B, breekt het exemplaar. Is K kleiner dan B, dan breekt het exemplaar niet. Over een 

lange tijdsperiode genomen bleek bij 3,01% breuk te zijn opgetreden. Uit gedane on- 

derzoekingen bleek in dezelfde periode de breeksterkte van de getransporteerde flessen 
normaal verdeeld te zijn met een gemiddelde van 200 kg en een standaardafwijking 
van 40 kg. Het management vond het optredende percentage breuk te hoog en besloot 
daarom door gewijzigde samenstelling van het glas de breeksterkte ervan op te voeren. 

Nadat dit was gebeurd, bleek uit nieuwe proeven de gemiddelde breeksterkte 231,5 kg 

te zijn geworden. De vorm van de verdeling van de breeksterkten en de standaardaf- 

wijking bleken geen wijziging te hebben ondergaan, terwijl het breukpercentage was 

teruggebracht tot 0,6%. 

a. Als mag worden aangenomen dat de tijdens transport optredende breekkrachten 
normaal verdeeld zijn en onafhankelijk zijn van de breeksterkten van de flessen, 
hoe groot is dan het gemiddelde en de standaardafwijking van deze breekkrachten”? 

b. Hoe groot moet dan bij gelijkblijvende standaardafwijking de gemiddelde breek- 
sterkte worden wanneer men bereid is 1,1% breuk te accepteren ? 


Het ogenaantal K van een dobbelsteen is een discrete kansvariabele. 

a. Teken de grafiek van de kansfunctie van К en bereken ug епок. 

b. Men werpt met twee dobbelstenen en bepaalt de som L van de ogenaantallen. Merk 
op dat deze som niet te schrijven is als 2- L (dit is het ogenaantal vermenigvuldigen 
met 2), maar wel als L+ L. Bepaal de kansfunctie van L, teken de grafiek en bepaal 
Uy enor. 

с. Меп werpt met drie dobbelstenen en bepaalt de som M van de ogenaantallen. Be- 
paal de kansfunctie van M, teken de grafiek en bepaal uy en ou. 

d. Vergelijk de grafieken van a, b en c en verklaar aan met behulp van de Centrale 
Limietstelling het resultaat. 


Een firma wil voor een bepaald soort orders de doorlooptijd vanaf besteldatum tot afle- 
vering uit de expeditieloods onderzoeken. Er zijn vier achtereenvolgende stadia waar- 
voor frequentieverdelingen van de (bij benadering normaal verdeelde) doorlooptijden 
zijn gemaakt. 
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Voor de gemiddelden en de standaardafwijkingen van de vier stadia vond men de vol- 
gende schattingen (in dagen): 


І. Vanaf besteldatum tot aanvang fabricage): шу = 14 en o1 = 2,0; 
П. Vanaf begin tot eind fabricage: uy = 6 en o2 = 1,6; 
Ш. Opslag fabrieksmagazijn gereed product: из = 12 еп оз = 1,0; 


IV. Opslag in loods expeditiecentrum: u4 = 18 en од = 1,2. 


a. Hoeveel bedraagt het gemiddelde en de standaardafwijking van de totale door- 
looptijd, aannemende dat de doorlooptijden in de afzonderlijke stadia paarsgewijs 
onafhankelijk zijn? 

b. Tussen welke waarden zal de totale doorlooptijd in 95% van de gevallen spreiden, 
dat wil zeggen buiten welk interval ligt slechts 2,5% kortere doorlooptijden en 
2,5% langere doorlooptijden? 

c. Hoeveel bedraagt de totale doorlooptijd wanneer men een bepaalde order in elk 
stadium zoveel mogelijk bespoedigt, dat wil zeggen de doorlooptijd in elk stadium 
zodanig kiest dat deze in slechts 2,5% van de gevallen korter is? 

d. Idem wanneer een order over elk stadium zo lang mogelijk doet (2,5% van de 
doorlooptijden duurt nog langer)? 


Een fabriek van bakkersartikelen vervaardigt onder andere speculaasjes. De gewichten 
van de speculaasjes zijn scheef verdeeld met een gemiddelde van 3 gram en een stan- 
daardafwijking van 0,2 gram. De kartonnen doosjes waarin 50 speculaasjes worden 
verpakt, wegen gemiddeld 15 gram met een standaardafwijking van 0,5 gram (normaal 
verdeeld). 

Hoeveel procent van de gevulde doosjes zal minder dan 162 gram wegen wanneer alle 
variabelen onderling onafhankelijk zijn? 


Een levensmiddelenconcern beschikt voor het vullen van pakken koffie over een auto- 
matische vulmachine die staat afgesteld op een netto vulgewicht van 250 gram en die 
werkt met een standaardafwijking van 12 gram. Bekend is dat de gewichten van de lege 
pakjes normaal verdeeld zijn met een gemiddelde van 20 gram en een standaardafwij- 
king van 5 gram. 

Voor de verzending naar de supermarktfilialen worden 24 pakken koffie in een doos 
gedaan waarvan het (lege) gewicht normaal verdeeld is met een gemiddelde van 520 
gram en een standaardafwijking van 13 gram. 

a. Wat is het gemiddelde en de standaardafwijking van een met 24 pakken koffie 

gevulde verzenddoos? 

b. Hoe groot is de kans dat twee dozen met elk 24 pakken koffie meer dan 100 gram 
in gewicht verschillen? 
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Een keuringsinstantie heeft bezwaar tegen de grote spreiding waarmee de vulautomaat 

werkt en bepaalt dat het gewicht van een doos met 24 pakken koffie slechts in 2,28% 

van de gevallen groter mag zijn dan 7074 gram. 

c. Tot welk bedrag moet de standaardafwijking van de vulmachine worden terugge- 
bracht om aan deze eis te kunnen voldoen? 


Een supermarkt heeft voor een groot aantal artikelen laten nagaan hoe groot in de peri- 
ode januari 2000 t/m december 2000 de wekelijkse omzet was. 
Voor doosjes dadels van een bepaald merk vond men de volgende frequentieverdeling: 


verkocht aantal doosjes dadels per week aantal weken 


153 Ит 157 2 
158 t/m 162 4 
163 t/m 167 7 
168 t/m 172 13 
173 t/m 177 12 
178 t/m 182 7 
183 Ит 187 3 
188 um 192 2 


De bedrijfsleider heeft de gewoonte om elke vier weken de winkelvoorraad (inclusief 
de magazijnvoorraad) voor wat betreft het bewuste artikel door een bestelling bij de 
importeur aan te vullen, de importeur kan dan prompt uit voorraad leveren. 

Op een bepaalde besteldatum blijken er nog 250 doosjes dadels in voorraad te zijn. 


_ Hoeveel doosjes moet de bedrijfsleider op dat moment bestellen wanneer hij slechts 


5% risico wil lopen de komende periode van vier weken buiten voorraad (stock out) te 
geraken? (Aangenomen mag worden dat vier opeenvolgende weekomzetcijfers paars- 
gewijs onafhankelijk zijn.) 


Bij de fabricage van een bepaald onderdeel van wasmachines worden beurtelings vier 

aluminium strippen en vier koperen plaatjes op elkaar gelast. Van de dikte van de 

aluminium strippen is bekend dat deze normaal verdeeld is met een gemiddelde van 

2,0 mm en een standaardafwijking van 0,3 mm. Voor de totale dikte van de gelaste 

samenstellingen geldt de technische tolerantie 21,43 + 1,30 mm. 

Van een zeer grote partij gelaste samenstellingen is de dikte normaal verdeeld met een 

gemiddelde van 21,60 mm. De dikte van de lasnaden is verwaarloosbaar klein. 

Van deze partij is 7,08% van de samenstellingen te dun. 

a. Welke standaardafwijking bezit de dikte van de gelaste samenstellingen in de par- 
tij? 

b. Hoeveel procent van de gelaste samenstellingen is te dik? 

c. Hoeveel procent uitval bevat de partij gelaste samenstellingen? 
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12. 


13; 


d. 
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Hoe groot is het gemiddelde en de standaardafwijking van de dikte van de afzon- 
derlijke koperen plaatjes? 

Als de dikte van de koperen plaatjes normaal verdeeld is en moet voldoen aan de 
tolerantie 3,492 + 0,804 mm, hoeveel procent van de koperen plaatjes voldoet dan 
niet aan deze eis? 


De levensduur van een bepaald soort bioscooplampje is normaal verdeeld met een ge- 
middelde van 3250 branduren en een standaardafwijking van 400 branduren. 
De bioscoopexploitanten eisen dat de lampjes minstens 3000 uur achtereen zullen bran- 


den. 


а. 


b. 


Hoeveel procent van de door de fabrikant afgeleverde lampjes zal naar verwachting 
niet aan deze eis voldoen? 

Op welke gemiddelde levensduur zal de fabrikant zijn productieproces moeten in- 
richten opdat behoudens 2,5% uitval aan de eis van de bioscoopexploitanten wordt 
voldaan? | 

Deze reorganisatie van het productieproces kost veel geld. De fabrikant overweegt 
dit te vermijden door aan de bioscoopexploitanten voor te stellen voortaan pak- 
ketjes van vier lampjes af te leveren die een gezamenlijke minimale levensduur 
hebben van 4 x 3000 = 12.000 branduren. 

Hoeveel procent van de door de fabrikant af te leveren pakketjes zou niet aan deze 
eis voldoen? 

Op welke gemiddelde levensduur zou de fabrikant zijn productieproces moeten 
inrichten opdat behoudens 2,5% uitval aan deze eis zou worden voldaan? 

Uit het vooraf gaande blijkt dat, om aan de eis van de bioscoopexploitanten te kun- 
nen voldoen, het procesgemiddelde bij verkoop van pakketjes met 4 lampjes tege- 
lijk in mindere mate verschoven behoeft te worden dan bij verkoop van individuele 
lampjes. 

Bereken hoeveel lampjes per pakketje de fabrikant zou moeten verkopen opdat 
behoudens 0,62% uitval wordt voldaan aan de eis van de bioscoopexploitanten 
zonder dat het procesgemiddelde behoeft te worden verschoven. 


Een grootwinkelbedrijf in sportartikelen berekent elke week de gemiddelde omzet van 
haar 25 (als even groot te beschouwen) filialen in het land. Over een heel jaar (50 
weken) berekend bleken deze weekgemiddelden normaal verdeeld te zijn met een ge- 
middelde van 94380 euro en een standaardafwijking van 4000 euro. 

Wanneer de omzet per week per filiaal geacht mag worden normaal verdeeld te zijn, 


hoe 


groot is dan de kans dat in een willekeurig filiaal een weekomzet van meer dan 


120.000 euro wordt gemaakt”? 


Een bepaald type TL-buizen van de firma P heeft een gemiddelde levensduur van 


14.000 uur en een standaardafwijking van 2000 uur. 
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Firma Q vervaardigt hetzelfde type TL-buizen met een gemiddelde levensduur van 
12.000 uur en een standaardafwijking van 1000 uur. 

De KEMA neemt regelmatig steekproeven van 125 stuks uit de productie van beide 
firma’s en bepaalt voor elke steekproef onder andere de levensduur van de TL-buizen. 
Hoe groot is de kans dat wat de levensduur van de TL-buizen betreft de beide steek- 
proefgemiddelden meer dan 1800 uur verschillen? 


De Quality Officer van een steenfabriek laat wekelijks steekproeven van 100 stuks ne- 

men uit de magazijnvoorraad trottoirtegels. De Production Manager van het bedrijf laat 

dagelijks uit de productiestroom van de trottoirtegels steekproeven van 25 stuks nemen. 

Uit QUINFOST, het Quality Information System van het bedrijf, blijkt wat de dikte van 

de tegels betreft onder andere het volgende: 

— 17,11 % van de steekproeven van het Quality Office hebben een gemiddelde groter 
dan 25,19 mm; 

— 2,87% van de steekproeven van de Production Unit hebben een gemiddelde groter 
dan 25,76 mm. 

Hoe groot is het gemiddelde en de standaardafwijking van de dikte van de trottoirte- 

gels? 


In een bak zitten 200 messing schroeven en 400 aluminium schroeven. De lengte van 
de messing schroeven is normaal verdeeld met иу = 4,5 cm en o m = 0,15 cm. De 
lengte van de aluminium schroeven is normaal verdeeld met u 4 = 4,3 cm en oa = 0,2 
cm. 


a Меп pakt aselect een aluminium schroef en een messing schroef. Hoe groot is de 


kans dat de aluminiumschroef langer is dan de messingschroef”? 
b. Men pakt 25 aluminum schroeven en bepaalt het gemiddelde van de (25) lengtes. 
Hoe groot is de kans dat dit gemiddelde minder dan 1 mm verschilt van 4,3 cm? 


Bedrijf A verkoopt tomatenzaad, dat rijpe tomaten oplevert in gemiddeld 54 dagen met 
een standaardafwijking van 6 dagen. Bedrijf B verkoopt tomatenzaad, dat rijpe tomaten 
oplevert in gemiddeld 60 dagen met een standaardafwijking van 8 dagen. 

a. Hoe groot is de kans dat een tomaat van zaad A meer tijd nodig heeft om tot rijping 
te komen dan een tomaat van zaad В? 

b. Een tomatenkweker plant 400 zaden van beide firma’s. Van alle tomaten, afkomstig 
van A-zaad wordt het gemiddelde aantal dagen van planten tot rijpheid berekend 
(МА = та). Van de 400 tomaten van B-zaad idem dito (Мв = тв). 

Hoe groot is de kans dat M4 meer dan 2 dagen van Mg verschilt? 








Schatten 





8.1 Inleiding 


We vervolgen nu met het tweede gedeelte van de steekproeftheorie. Nu zullen we daadwer- 
kelijk steekproeven uit populaties nemen om de karakteristieke grootheden van de populatie 
te weten te komen. We hebben het dan over het schatten van populatieparameters. 


8.2 Het schatten van populatieparameters 


In de laatste paragraaf van het voorgaande hoofdstuk werd feitelijk de basis gelegd voor 
de zogenaamde steekproeftheorie. We zullen daar nu dieper op ingaan. Een steekproef 
uit een populatie wordt meestal genomen om een schatting te maken van de parameters 
van de populatie. Zo kan het gemiddelde и van een populatie geschat worden door het 
steekproefgemiddelde x. 

De standaardafwijking с van de populatie kan geschat worden door de standaardaf wijking 





De fractie p van een populatie wordt geschat door de fractie p van de steekproef (merk op 
dat we voor de fractie p van de populatie bij wijze van uitzondering geen Griekse letter 


schrijven). 

Wanneer de steekproef voldoende representatief en aselect is, zijn er goede schatters te 
vinden van de populatieparameters. De genoemde voorbeelden zijn voorbeelden van zoge- 
naamde puntschatters, omdat de betreffende populatieparameter door één getal, een punt op 
de getallenrechte, wordt geschat. Naast puntschattingen kennen we ook nog zogenaamde 
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intervalschattingen. Zo’n interval wordt bepaald door een ondergrens a en/of een boven- 
grens b waarvan met een zekere mate van betrouwbaarheid gezegd kan worden dat het 
de werkelijke waarde van de te schatten populatieparameter bevat. Deze betrouwbaarheid 
dient dan geïnterpreteerd te worden als de kans В dat men een interval berekend heeft dat 
de werkelijke waarde van de geschatte parameter bevat. Het bedoelde interval wordt dan 
ook meestal het 1008 % betrouwbaarheidsinterval genoemd. Voor het berekenen van zo’n 
interval is een puntschatter nodig. In de volgende paragraaf zullen we dieper ingaan op het 
begrip betrouwbaarheidsinterval. 


8.3 Intervalschattingen: betrouwbaarheidsintervallen 


We zullen beginnen met een formele definitie van het begrip betrouwbaarheidsinterval. 


Definitie 

Onder het 1008 %-betrouwbaarheidsinterval van de populatieparameter t (Griekse letter 
tau) verstaan we een uit steekproefresultaten berekend interval waarvan gezegd kan wor- 
den dat er 1008% kans bestaat dat het de werkelijke waarde van de populatieparameter 
т bevat. 


Merk op dat de betrouwbaarheid van een betrouwbaarheidsinterval de kans is dat het de 
werkelijke waarde van de parameter т bevat en niet de kans dat de werkelijke waarde van 
de parameter т in het interval ligt. Immers, de werkelijke waarde van т is onbekend veron- 
dersteld, maar wel uniek bepaald, omdat hij betrekking heeft op de hele populatie; t is dus 
niet ‘“stochastisch’ (aan toeval onderhevig), zodat het begrip kans niet op т zelf betrekking 
heeft. Het betrouwbaarheidsinterval daarentegen is wel stochastisch (zodat hieraan wel het 
begrip kans gekoppeld kan worden). Het is namelijk gebaseerd op de numerieke waarde 
van een schatting, die berekend wordt uit steekproefresultaten. En dus heeft het een sto- 
chastisch karakter (twee verschillende, doch even grote steekproeven, zullen vrijwel altijd 
twee verschillende puntschattingen opleveren). 

Een betrouwbaarheidsinterval kan zowel tweezijdig zijn als links-eenzijdig of rechts-een- 
zijdig. Bij een tweezijdig 1006%-betrouwbaarheidsinterval berekent men zowel de on- 
dergrens a als de bovengrens b van het interval. Bij een links-eenzijdig respectievelijk 
rechts-eenzijdig 1008% betrouwbaarheidsinterval berekent men slechts de ondergrens а 
respectievelijk de bovengrens b. In alle drie de gevallen geldt dat er 1006 %-kans bestaat 
dat het berekende interval de werkelijke waarde van de populatieparameter т bevat. Hoewel 
er voor elke denkbare parameter van elke denkbare kansverdeling een betrouwbaarheidsin- 
terval geconstrueerd kan worden, zullen we ons in dit boek beperken tot het berekenen van 
een betrouwbaarheidsinterval voor de parameters u en o van een normale verdeling en voor 
de parameter p van een binomiale verdeling die door een normale verdeling benaderd kan 
worden. 
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8.4 Intervalschattingen van het gemiddelde 


Voor het maken van een intervalschatting voor het gemiddelde gaan we ervan uit dat de 
populatie normaal verdeeld 15. We moeten een onderscheid maken tussen een populatie met 
bekende standaardafwijking en een populatie met een onbekende standaardafwijking. 


8.4.1 De intervalschatting van het gemiddelde van een normale verdeling 
met een bekende standaardafwijking 
Wanneer we voor het onbekende gemiddelde и уап een normale verdeling met bekende 
standaardafwijking с een intervalschatting (een betrouwbaarheidsinterval) willen bereke- 
nen, dienen we eerst (zie de definitie) de beschikking te hebben over een puntschatting van 
ш. Daartoe nemen we uit de populatie die door de betreffende normale verdeling beschre- 
ven wordt, een steekproef van n stuks en berekenen hieruit de bedoelde puntschatting. Het 
ligt voor de hand hiervoor het gemiddelde x (numerieke waarde van X) te kiezen. 
Stel nu dat we in een steekproef van 25 stuks uit een normale verdeling met onbekend 
gemiddelde и en bekende standaardafwijking с = 10 voor de schatter X van u de waarde 
x = 75 hebben gevonden. We kunnen ons nu afvragen welke waarden van de onbekende и 
nog aannemelijk te noemen zijn. Het zal duidelijk zijn dat u in de buurt van 75 zal liggen, 
maar tussen welke onder- en bovengrens? 
Laten we in eerste instantie eens onderzoeken of u = 69 kan zijn. 


Volgens stelling 5 uit hoofdstuk 7 (gevolg van de centrale limietstelling) geldt dat de kansva- 
М с 
riabele X normaal verdeeld is met gemiddelde иу = u еп standaardafwijking су = —=. 


Ko 


We kunnen dus zeggen dat de getransformeerde variabele 


A — Uy Х-и 
U= PE SS (8.1) 


n 





standaardnormaal verdeeld is. 


Wanneer u = 69 en o = 10 kunnen we dus zeggen dat 
Zen Х—69 
pam 10 — 
/23 

Er geldt dan: P(X > 75) = P (U > 258) = PU > 3) = 0,0013. 
Dit betekent — zie de linkerhelft van figuur 8.1 — dat de kans om bij waarden van u kleiner 
dan шу = 69 een waarde van X te vinden die groter is dan х = 75, kleiner is dan 0,0013. 
We zeggen dan dat bij x = 75 de waarde van и behoudens een onbetrouwbaarheid 0,0013 


standaardnormaal verdeeld is. 





niet kleiner is dan u, = 69. 
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a=0,0013 
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em % betrouwbaarheidsinterval ——— н» 


Fig. 8.1 Het 99,74%-betrouwbaarheidsinterval van u bij с = 10 met n = 25 en x = 75 


In tweede instantie onderzoeken we of u = 81 kan zijn. In dat geval geldt er — omdat 











С 10 
иу = 81 еп мейеготоу = = = —— = 2 – даі 
e * Мт 4B 
X — uš Хд Х —Ё1 X SI 
U = ch = e = Ti == standaardnormaal verdeeld is, 
Oo К 10 


zodat P(X < 75) = P (U < сым!) = PI = D= PU Зу = 00013, 

Dit betekent — zie de rechterhelft van figuur 8.1 — dat de kans om bij waarden van u groter 
dan шә = 81 een waarde van X te vinden die kleiner is dan x = 75, kleiner is dan 0,0013. 
We zeggen dan dat bij x = 75 de waarde van u behoudens een onbetrouwbaarheid 0,0013 
niet groter is dan и» = 81. 

Combinatie van de beide bovenstaande uitspraken — zie wederom figuur 8.1 — leidt ertoe te 
zeggen dat bij x = 75 de waarde van u behoudens een onbetrouwbaarheid 2 х 0,0013 = 
0,0026 niet kleiner is dan u, = 69 en niet groter is dan uy = 81. 

We noemen de getallen u, = 69 en и» = 81 de grenzen van het 99,74%-betrouwbaarheids- 
interval van u. Wanneer we de positieve u-waarde die in de standaardnormale verdeling een 
rechteroverschrijdingskans « heeft aanduiden met u(a) geldt hier dus — met « = 0,0013 en 
dus u(a) = 3 — dat: 
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Haus 69 = 795—3 :2 = х – и(а) · еп 


Dass 81 = 15 +3 +2 = х +и(а) 


alesis 


We kunnen nu in het algemeen definiëren: 
Definitie 
Het 1006 %-betrouwbaarheidsinterval van het gemiddelde u van een normale verdeling 
met een bekende standaardafwijking o wordt gegeven door de grenzen 


SE +и(о) A 8.2) 
SC и(о E (б. 


waarin x het gemiddelde is van een steekproef уап n stuks uit die normale verdeling еп 


Е — и(о) · 


waarin u(a) het positieve getal is dat in de standaardnormale verdeling ееп rechterover- 


bezit. 





schrijdingskans a = 


Opmerking 


o , , 
De factor F wordt in de literatuur ook wel standaardfout genoemd. 
/n 


Opdracht 
Bereken voor het behandelde voorbeeld het 95,44%-betrouwbaarheidsinterval van u. Be- 
paal eveneens de betrouwbaarheid van het betrouwbaarheidsinterval [73, 77]. 


In tabel 8.1 hebben we op basis van tabel ВІ voor enkele speciale gevallen de relatie tussen 
В, a en u(x) vastgelegd. 


Tabel 8.1 De relatie tussen В, œ en и(о) voor enkele waarden van 6 
1005 % 99 98 95 90 80 Т9 60 50 


а 0,005 0,01 0,025 0,05 0,10 0,125 0,20 0,25 
u(a) 2575 2,33 1,96 1,645 1,28 1,15 0,84 0,67 


Merk op dat uit tabel 8.1 blijkt dat u (œ) kleiner wordt — en dus het betrouwbaarheidsinterval 
smaller — naarmate 8 afneemt. Daarentegen wordt и(о) groter wordt — en dus het betrouw- 
baarheidsinterval breder — wanneer В toeneemt. De breedte van een betrouwbaarheidsinter- 
val is bepalend voor de nauwkeurigheid ervan. Dit betekent dat de intervalschatting nauw- 
keuriger wordt naarmate men een kleinere betrouwbaarheid kiest en minder nauwkeurig 
wordt naarmate men een grotere betrouwbaarheid kiest. 
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Voorbeeld 1 

Bij de fabricage van een bepaald soort glazen flessen wordt ervoor gezorgd dat de stan- 
daardafwijking van de normaal verdeelde breeksterkte van de flessen gelijk is aan 10 
N(ewton). Van een steekproef van 16 flessen uit de dagproductie bleek de gemiddelde 
breeksterkte gelijk te zijn aan 110 N. Bereken een 95%-betrouwbaarheidsinterval voor 
de gemiddelde breeksterkte van de flessen in de dagproductie. 


Oplossing 
Met 8 = 0,025 vinden we in tabel 8.1: u(a) = 1,96. 
Voor het gevraagde 95%-betrouwbaarheidsinterval vinden we dan volgens formule (8.2): 


10 10 
D 1,96 x ле” 110 + 1,96 х | == 1095,15 114,9] 
We zijn er dus voor 95% zeker уап dat het populatiegemiddelde уап de breekkrachten 
ligt tussen 105,1 N en 114,9 N. Deze conclusie kunnen we trekken omdat we weten 
dat bij herhaalde steekproeven (steeds van 16 breeksterkten) 95% van de intervallen, die 
op deze wijze geconstrueerd kunnen worden, het werkelijke populatiegemiddelde zal 
omvatten. 


Opmerking 

a. Ook wanneer de populatie (met onbekend gemiddelde u en bekende standaardaf- 
wijking с) niet normaal verdeeld is, kunnen we de gevolgde techniek gebruiken. 
Immers, ongeacht de soort verdeling waaruit de steekproef (mits voldoende groot) 
genomen wordt, kunnen we volgens stelling 5 uit hoofdstuk 7 voor het steekproef- 
gemiddelde X de normale verdeling gebruiken. 

D In het voorafgaande is stilzwijgend verondersteld dat er sprake is van een steekproef 
met teruglegging of van een steekproef zonder teruglegging uit een ‘oneindig grote’ 
populatie. Wordt de steekproef echter zonder teruglegging genomen uit een eindige, 
ten opzichte van de steekproefomvang relatief kleine populatie met omvang N, dan 


moet in formule (8.2) de term 7 volgens formule (7.13) vervangen worden door 
n 


N-n ә со 
М№-1 т 


8.4.2 De intervalschatting van het gemiddelde van een normale verdeling 





met een onbekende standaardafwijking; de t-verdeling 


In paragraaf 8.3.1 hebben we voor de constructie van het betrouwbaarheidsinterval van 










Wanneer de standaardafwijking с niet bekend is, kunnen we het gegeven dat U = 


/n standaardnormaal verdeeld is, niet langer gebruiken. 


het gemiddelde u van een normale verdeling met bekende standaardafwijking o gebruikge- 








| | X-u X-u 
maakt van де standaardnormale verdeling van de kansvariabele U = ——— = CH 
Kä С 

vn 


Сш 


О 
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Ren š- 
> К а =T., Ji dee te vervangen 


Ta 
door de geschatte standaardafwijking 5 van de steekproef (met waarde s). U gaat dan over 
S _ X __ u 
En Zb, „..ү 
in == = 
/n 


hij een standaardnormale verdeling bezit. De letter U is dan ook niet meer van toepassing. 





Het ligt voor de hand in de uitdrukking U = 


‚ An. maar van deze kansvariabele kan niet meer beweerd worden dat 





X = 
Men zou zich nu kunnen afvragen welke kansverdeling T = SEN /n dan wel bezit. 


Het is de statisticus William S. Gosset (1876-1937) die het antwoord op deze vraag gegeven 
heeft. Hij is de ontdekker van de kansverdeling van de kansvariabele 


ER 
Гы. 





| Jn (8.3) 


als functie van het aantal vrijheidsgraden v (Griekse letter, spreek uit: nu) van de standaard- 
afwijking S . De t-verdeling is destijds onder de schuilnaam Student gepubliceerd. 


Opmerking 

We herinneren er nogmaals aan dat de naam van een kansvariabele met een hoofdletter 
geschreven wordt en de waarde met een kleine letter. Vandaar het onderscheid tussen T 
еп ź, het onderscheid tussen A еп s en het onderscheid tussen U en u. 


Het begrip vrijheidsgraad is in hoofdstuk 3 al even aan de orde geweest (bij de definitie van 
de standaardafwijking уап een steekproef). Studentť’s t-verdeling met v vrijheidsgraden is 


dus de kansverdeling van de kansvariabele T = SC ‚/п. Deze verdeling wordt volledig 
wordt bepaald door zijn parameter v. De verdeling bezit een aantal eigenschappen die veel 
overeenkomst vertonen met die van de standaardnormale verdeling: voor elke waarde van 
v is het gemiddelde van de verdeling gelijk aan 0, Т kan waarden t aannemen tussen — oo 
еп +oo еп de verdeling is symmetrisch t.o.v. t = 0 (zie figuur 8.2). 


Standaardnormale verdeling 





Te t-verdeling met grote waarden voor v = п -1 


t-verdeling met kleine waarden voor v = п -1 


_ e 
æ = => == Bh 





D 
fN 
Reg 
Drsesee ee we 


. 

e 
wg 

ET ele 


Fig. 8.2 Student's t-verdeling еп de standaardnormale u-verdeling 
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V | 
waaruit 
2 


Verder is de variantie уап de verdeling voor elke waarde уап v > 2 gelijk aan 


volgt dat de variantie — en dus ook de standaardafwijking — tot 1 nadert naarmate v groter 
wordt. 

Redenerend zoals we in paragraaf 8.3.1 hebben gedaan rond figuur 8.1, kunnen we nu met 
behulp van de t-verdeling definiëren: 


Definitie 
Het 1008 %-betrouwbaarheidsinterval van het gemiddelde u van een normale verdeling 
met onbekende standaardafwijking с wordt gegeven door de grenzen 


S A 
Х =n ЖАЎ ? —, X fy P Te 8.4 
[ ty (œ) RK х + f(a) | (8.4) 


met f(a) > О 
Hierin is x het gemiddelde en 5 de standaardafwijking van een steekproef van n stuks uit 
de betreffende normale verdeling. Verder is t, (œ) het positieve getal dat in de t-verdeling 


bezit. 





met v = n — 1 vrijheidsgraden een rechteroverschrijdingskans o = 


Opdracht 

Са na dat uit de eigenschappen van de 7'-verdeling volgt dat voor elke waarde van v de in 
formule (8.4) bedoelde factor t, (a) voor dezelfde waarde уап о groter is dan de іп formule 
(8.2) bedoelde factor u(œ), maar dat dit in mindere mate het geval 15 naarmate v groter is. 


De tabel van de t-verdeling 

Voor verschillende waarden уап œ en v zijn waarden van de factor t‚(a) vastgelegd in 
tabel B5. Zo vinden we bijvoorbeeld in deze tabel bij е = 0,10 en v = 15 de factor 
115(0,10) = 1,341, hetgeen betekent dat in de t-verdeling met 15 vrijheidsgraden de kans 
op een waarde van T groter dan 1,341 gelijk is aan 0,10. Merk op dat in verband met de 
symmetrie van de t-verdeling ten opzichte van т = 0 geldt dat 1,(1 — а) = —t,(a). Zo is 
bijvoorbeeld t25(0,99) = —125(0,01) = —2,485, hetgeen betekent dat in de t-verdeling met 
25 vrijheidsgraden de kans op een waarde van T groter dan -2,485 gelijk is aan 0,99 en dus 
de kans op een waarde van T kleiner dan -2,485 gelijk is aan 0,01. 


Opdracht 
De t-verdeling met v vrijheidsgraden gaat voor toenemende waarden van v over in een 
standaardnormale verdeling. Ga met behulp van tabel B5 en tabel 8.1 na dat het gevolg 
hiervan is dat bij toenemende waarden van v de waarde van de factor /, (0) nadert tot die 
van de factor u(a). 
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Ga na dat uit het bovenstaande volgt dat het betrouwbaarheidsinterval volgens formule (8.4) 
bij toenemende waarde van de steekproef grootte n nadert tot dat volgens formule (8.2). 


Voorbeeld 2 
Stel dat in het geval van voorbeeld 1 de standaardafwijking ø van de breeksterkte van 
de glazen flessen niet bekend is, maar dat de standaardafwijking van de breeksterkte 
van de 16 flessen in de genomen steekproef met gemiddelde х = 110 N gelijk 15 aan 
5 = 10 N. Bereken in dat geval ееп 95%-betrouwbaarheidsinterval voor de gemiddelde 
breeksterkte van de flessen in de dagproductie waaruit de betreffende steekproef afkom- 
stig is. 

Oplossing 

Met 8 = 0,95 en dusg = 


115(0,025) = 2,131.Voor het gevraagde 95%-betrouwbaarheidsinterval vinden we dan 
volgens formule (8.4): 


1- В 





vinden we met v = n — 1 = 15 in tabel B5: t (a) = 


10 10 
110 — 2,131 х ——=; 110 + 2,131 х A = [104,67; 115,33] 
| v16 / 16 


8.5 Ое intervalschatting van de variantie van een normale ver- 
deling; de Chi-kwadraatverdeling 


In de vorige twee paragrafen hebben we voor het maken van een intervalschatting (het 
berekenen van een betrouwbaarheidsinterval) van het gemiddelde u van een normale ver- 


deling met bekende en onbekende standaardafwijking с gebruikgemaakt van de standaard- 


ига _ X-u. | ; D . 
normale verdeling van de kansvariabele U = —— vn respectievelijk van de t-verdeling 





Gi 5 e = 
met v = n — 1 vrijheidsgraden van de kansvariabele Т = SE. y/n. 
e я Р Я i gl 
Ook voor de berekening уап een betrouwbaarheidsinterval van de variantie o^ van een 
А . H ? e А e 
normale verdeling beschikken we over een kansverdeling: de x“-verdeling (spreek uit: chi- 
kwadraatverdeling) met v vrijheidsgraden. 
e . e e e a ão А 
De x“-verdeling met v = n vrijheidsgraden wordt gedefinieerd als de kansverdeling уап de 
п 
e e, 9 e e 4 e 
kansvariabele x^ = Ў, = waarin U; ( = 1, 2,3, ..., п) voor elke į standaardnormaal ver- 
i=] 
к Ki = ш | | 
deeld is. Schrijven we voor U; = ——— (met X; (i = 1, 2, 3, ..., п) voor elke i normaal 
o 
verdeeld met gemiddelde u en standaardafwijking о), dan betekent dit dat de Капѕуапа- 
э т Х; = Eé e e М D e Я 
bele х = У | ——— | een x“-verdeling met v = п vrijheidsgraden bezit. Wanneer we 
i=] H 
hierin u vervangen door zijn schatter X (waardoor ег een graad van vrijheid verloren gaat), 
dan betekent dit dat de kansvariabele 
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n _ 
п ых. 2 > (Xi - Х)? 


ЖХ; ~ Ж Ҷ{ : 
8 ` i a = 
gra) -= 





verdeeld is volgens ееп x*-verdeling met v = n — 1 vrijheidsgraden. Bedenken we dat met 
S? als schatter van с^ uit 


n ze 
У(Х: en 
$2 == Ges 
n=] 
(formule voor de standaardafwijking van een steekproef, zie hoofdstuk 3) volgt dat 


У (Х;— Х)? = (п – IS? 


i=l 


dan kan geconcludeerd worden dat de kansvariabele 


2 
x = (п – Ee (8.5) 
О 


ееп x?-verdeling met v = п — 1 vrijheidsgraden bezit. 

De x*-verdeling lijkt op het oog weinig op een standaardnormale verdeling of een t-verdeling. 
De verdeling wordt (overigens evenals de t-verdeling) volledig bepaald door het aantal vrij- 
heidsgraden v van de schatter $% van o". 

х? ligt voor elke waarde van v tussen 0 en oo en de verdeling is binnen deze grenzen, zeker 
voor kleinere waarden van v, sterk rechts-asymmetrisch. Voor toenemende waarden van v 
neemt de asymmetrie van de verdeling af, voor voldoende grote v wordt de verdeling zelfs 
min of meer symmetrisch. 

Bewezen kan worden dat voor elke waarde van v de x°-verdeling met v vrijheidsgraden een 
gemiddelde (verwachtingswaarde) v en een variantie 2v heeft. Omdat de x*-verdeling voor 
toenemende waarden van v steeds minder asymmetrisch wordt, mag voor voldoende grote 
waarden van v (zeg v > 30) worden aangenomen dat de x*-verdeling met v vrijheidsgra- 
den redelijk goed benaderd kan worden door een normale verdeling met gemiddelde v en 
standaardafwijking Zu. 

In figuur 8.3 is voor enkele waarden van v de kromme van de x°-verdeling weergegeven. 
Om op basis van de berekende variantie 52 van een steekproef van n stuks uit een normale 
verdeling met variantie o? een 1006 %-betrouwbaarheidsinterval voor с? te construeren, 
redeneren we als volgt. 


Wanneer 7 еп х5 de waarden zijn die in de x*-verdeling met v vrijheidsgraden een linker- 
| 2 


$ 
bezitten, dan geldt ег, omdat (n — 1) —5 
О 





respectievelijk rechteroverschrijdingskans 


een x*-verdeling met v vrijheidsgraden bezit: 
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Fig. 8.3 Het verloop van de х 2-уегде!іпо voor enkele waarden van het aantal vrijheidsgraden v 


2 s? 2 
(аео 8) 1-я 


Wanneer we de drie leden van deze ongelijkheid delen door (п — 1) 5°, ontstaat ег een 
uitdrukking die — na herleiding — er als volgt uitziet: 


(«08 sereen) 
P GE tee < m- Lk = if 


Lë Х| 
„2 52 
Dit betekent dat ег ееп kans 1 — В bestaat dat het interval | (n — 0—5, a= Lt de 
X2 Léi 


werkelijke waarde o? bevat (en dus is de kans В dat de werkelijke waarde van с? buiten het 
betreffende interval ligt). 

Met dit interval hebben we het 1009 %-betrouwbaarheidsinterval voor de variantie с? ge- 
vonden. 

We kunnen nu in het algemeen definiëren: 


Definitie 
Het 1006%-betrouwbaarheidsinterval van de variantie o 
wordt gegeven door het interval: 


2 van een normale verdeling 


s? ei 
(п — 1)—>, (и — Hes (8.6) 
Хэ Xi 


Hierin is s^ de (waarde van de) variantie van een steekproef van n stuks uit die normale 
verdeling. 
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Verder is х5 == х2(о) het getal dat іп de х 2-уегаеіпе met v = n — 1 vrijheidsgraden 





een rechteroverschrijdingskans « = bezit en Di == х2(1 — 0) is het getal dat in 


de x*-verdeling met v = n — 1 vrijheidsgraden een rechteroverschrijdingskans bezit van 


РТ оз E 1— 
1 == ed — Sé ‚ dus een linkeroverschrijdingskans bezit van œ = DE 





De tabel van de chi-kwadraat (х °)-verdeling 

Voor verschillende waarden van o en v zijn waarden van de factor Хх (ш) vastgelegd in tabel 
Вб. 

In deze tabel vinden we bijvoorbeeld bij о = 0,10 еп v = 15 de factor Ж (0,10) = 22,31, 
Dit betekent dat in de x°-verdeling met 15 vrijheidsgraden de kans ор een waarde van x? 
groter dan 22,31 gelijk is aan 0,10. En bij a = 0,99 en ý = 25 15 x15 (0,99) = Ilse ШЦ 
betekent dat in de x*-verdeling met 25 vrijheidsgraden de kans ор een waarde van x° groter 
dan 11,52 gelijk is aan 0,99. De kans op een waarde van x° kleiner dan 11,52 is gelijk aan 
0,01. 


Opdracht 
Ga op grond van de definitie van de x*-verdeling па dat de kansvariabele U? ееп x°- 
verdeling met v = 1 vrijheidsgraad bezit en dat in verband hiermede voor elke waarde 


уап а geldt dat x (a) = и? (50). 
Controleer dit voor enkele waarden уап o met behulp van de tabellen ВІ еп B6. 


Voorbeeld 3 

Stel dat in het geval van voorbeeld 1 de standaardafwijking с van de breeksterkte van de 
glazen flessen niet bekend is en dat de standaardafwijking van de 16 breeksterkten in de 
genomen steekproef met gemiddelde x = 110 N gelijk is aan s = 10 N. Bereken in dat 
geval het 95%-betrouwbaarheidsinterval voor de variantie van de breeksterkten van de 
flessen in de dagproductie waaruit de betreffende steekproef afkomstig 15. 


Oplossing 

Met P = 0,95 dus а = 
х2 = х2 (а) = х2, (0,025) = 27,49 en 

y =x — а) = х15(0,975) = 6,26. 

Voor het gevraagde 95%-betrouwbaarheidsinterval vinden we dan volgens formule (8.6): 


в 





vinden we met v = n — 1 = 15 in tabel Вб: 


Lai 


102 102 | 
15 x 15 х oftewel [54,57; 238,62]. 








27,49 6,26 


Wanneer — voor v > 30 — de x*-verdeling met v vrijheidsgraden benaderd kan worden 
door een normale verdeling, kunnen de in formule (8.6) bedoelde factoren Ж == Хх (о) еп 
х? == х2 (1 — q) vervangen worden door: 
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х5 = и + ul) хо =v + и(о)у 2v en х? = и ula) хо =v – и(а)у 20. 


Voorbeeld 4 

Stel dat in het geval van voorbeeld 1 de standaardafwijking van de breeksterkten in 
een steekproef van 51 flessen gelijk is aan s = 10 N. Bereken in dat geval het 95%- 
betrouwbaarheidsinterval voor de variantie van de breeksterkten van de flessen in de 
dagproductie waaruit de steekproef afkomstig is. 


Oplossing 

Omdat v = n — 1 = 50 groter is dan v = 30, geldt met В = 0,95 
(dus а = Р = 0,025) dat: 

uid) = u(0,025) = 1,96, dus: 

х5 = 50 + 1,96: 4/2 х 50 = 69,6 en 

Х = 50 — 1,96. 4/2 х 50 = 30,4. 

Voor het gevraagde 95%-betrouwbaarheidsinterval vinden we dan volgens formule (7.19): 





102 10? 
50 x —: S0 x = [71,84; 164,47] 
69,6 30,4 


Opmerking 

De grenzen van het 10068 %-betrouwbaarheidsinterval van de standaardafwijking с van 
een normale verdeling zijn in principe niet de wortels van de grenzen van het 1006 %- 
betrouwbaarheidsinterval van de variantie o*. Wanneer we toch op deze wijze een be- 
trouwbaarheidsinterval van с berekenen, dienen we ons te realiseren dat de betrouw- 
baarheid ervan geringer is dan die van het betrouwbaarheidsinterval van с? 


8.6 De intervalschatting van een percentage 


In hoofdstuk 5 hebben we het volgende gezien: Stel dat een populatie met N elementen 
een fractie р elementen met een bepaald kenmerk bevat. Dan is het aantal elementen К 
met dat kenmerk in een steekproef van п stuks uit die populatie binomiaal verdeeld met de 
parameters n en p. Dit geldt onder de voorwaarde dat de steekproef met teruglegging is. 
Wanneer de steekproef zonder teruglegging is, geldt dit ook, mits de populatie groot genoeg 
is ten opzichte van de steekproef (zeg N > 10n). 


) 
Wanneer bij p > $ geldt dat n > 9- - 


Ad _. 
(zie pa- 








of bij p < 5 geldt dat n > 9 


ragraaf 6.5.1), kan de binomiale verdeling benaderd worden door een normale verdeling. 
Er geldt dan dat de kansvariabele K normaal verdeeld 15 met gemiddelde u = пр en stan- 


K 
daardafwijking o = /np(l — p). Dit betekent dus dat de kansvariabele — (= de fractie 


n 
van het steekproefaantal met het bedoelde kenmerk) normaal verdeeld is met и = p en 


а: vnp(l — р) p(l — р) 
standaardafwijking o = ——————— = Al ———, 
n n 
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K эз 
Wanneer — normaal verdeeld is met gemiddelde и = p en standaardafwijking с = 
} 


| | K 
1 — d Ge 
BCS dan is de kansvariabele U = Б мы 2 
п р(1—р) 

n 


standaardnormaal verdeeld. 


K 


n 


р(1—р) 
n 


In dat geval geldt met een betrouwbaarheid van 1006% dat U = ligt tussen 


—и(о) еп +u(a): 


К 


—u(a) < es < +и(о) (8.7) 
р(1—р) 
п 


Formule (8.7) is na kwadratering ter herleiden tot de ongelijkheid 


2 
(п + и? (о))р? — (2K + и? (о))р Ез £ < 0 


Volgens de bekende theorie der kwadratische vergelijkingen is аап deze ongelijkheid vol- 
daan voor die waarden van p, welke liggen tussen de beide oplossingen Den р» van de 
vergelijking die ontstaat als we het <-teken vervangen door een =-teken. Dus zijn de op- 
lossingen van deze vergelijking de grenzen van het 1008 %-betrouwbaarheidsinterval van 


p. 
Definitie 
Het 1006%-betrouwbaarheidsinterval van de parameter р van de binomiale verdeling 
van de kansvariabele К, is (wanneer deze verdeling benaderd kan worden door een 


normale verdeling) het interval [р1, p2], waarbij pı en p2 de oplossingen zijn уап de 
vergelijking: 


k2 
(п + u ap — Ok + и?(а))р + Spa (8.3) 
waarin е = 15 еп k ееп schatting is van de kansvariabele К (ор basis van een steek- 


proef van n elementen). 


Opmerking 

Om te kunnen vaststellen of de binomiale verdeling van K benaderd kan worden door 
een normale verdeling, nemen we een steekproef van n elementen, bepalen vervolgens 
het aantal elementen k dat het bewuste kenmerk bezit. Dan kan vastgesteld worden dat 


de fractie van dat aantal gelijk is аап p = —. Deze puntschatter van de populatiefractie 
n 
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р dient te voldoen aan de voorwaarden, welke zojuist genoemd zijn: Als р > $ moet 








А 1 == 
еп als р < ` moet gelden dat n > 9 — Р 
р 


gelden dat n > 9 р - 
1—р 

Voorbeeld 5 

Bereken ееп 95%-betrouwbaarheidsinterval voor het percentage [CT-deskundigen met 

een academische opleiding wanneer op een congres van academici 10 van de 125 aan- 

wezigen ICT-deskundigen zijn. 


Oplossing 








R 10 е 115 
Met n = 125 еп k = 1015 р = — = 0,08 en 1 — р = — = 0,92. 
125 ` 125 
1—р 0,92 
Er is dus voldaan аап de voorwaarde n > 9—— = 9. 0.08 = 103.9, 


Benadering van de binomiale verdeling met n = 125 en onbekende p is dus toegestaan. 
Met о = шы = 0,025 dus u(a) = 1,96 vinden we vergelijking (8.8). De coëfficiënten 
hiervan blijken te zijn: 

u? (æ) + п = 128,84 

и“ (о) + 2k = 23,84 en 

k2 

— = 0,8. 

n 


De oplossingen van de kwadratische vergelijking 128,84p* — 23,84p + 0,8 = 0 zijn 
gelijk aan 

pı = 0,0440 en p = 0,1410 

Het 95%-betrouwbaarheidsinterval van het percentage ICT-deskundigen met een acade- 
mische opleiding is dus 4,40 < p < 14,10. 


Opmerking 

De geschetste methode is niet toegestaan wanneer K niet binomiaal (maar hypergeome- 
trisch) verdeeld is of indien K wel binomiaal verdeeld is maar niet benaderd kan worden 
door een normale verdeling. In dat geval dienen de grenzen van het betrouwbaarheids- 
interval van p berekend te worden met behulp van de hypergeometrische verdeling dan 
wel de binomiale verdeling. Het construeren van betrouwbaarheidsintervallen voor de 
parameters van dergelijke discrete kansverdelingen valt echter buiten het kader van dit 
boek. 


8.7 Het bepalen van de steekproefgrootte voor het schatten 
van een gemiddelde 


In de voorgaande paragrafen hebben we methoden besproken voor het berekenen van in- 
tervalschattingen (betrouwbaarheidsintervallen) van een gemiddelde, een variantie en een 
percentage (fractie). In alle gevallen die we daarbij beschouwden, werd de steekproef- 
grootte bekend verondersteld of was deze — in de voorbeelden — gegeven. In de praktijk 
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zullen we de steekproef grootte vaak zelf moeten bepalen. De vraag rijst dan welke criteria 
daarbij gesteld moeten worden. Een belangrijk criterium is het kostenaspect. Het nemen 
van steekproeven brengt uiteraard kosten met zich mee: vaste kosten (de voorbereiding, de 
organisatie) en variabele kosten welke mede bepaald worden door het aantal steekproeven 
en de grootte van de steekproeven. 

Een tweede belangrijk criterium is dat de steekproef grootte voldoet aan de eisen voor het 
mogen toepassen van de beoogde berekeningsmethode voor het betrouwbaarheidsinterval. 
Zie de opmerkingen daarover in de voorgaande paragrafen. Ten slotte wordt de steek- 
proefgrootte bepaald door de gewenste mate van betrouwbaarheid en de gewenste mate 
van nauwkeurigheid van de intervalschatting. Op dit laatste aspect zullen we in deze para- 
graaf ingaan. Daarbij beperken we ons (bij wijze van voorbeeld) tot het schatten van het 
gemiddelde van een normale verdeling met al of niet bekende standaardaf wijking. 
Wanneer we zeggen dat het 1009%-betrouwbaarheidsinterval van het gemiddelde и van 
een normale verdeling met een bekende standaardafwijking o een nauwkeurigheid e moet 
bezitten, bedoelen we te zeggen dat het gemiddelde gelegen moet zijn op het interval 


[5 = EX E 8] (8.9) 


waarin х het gemiddelde is уап een steekproef uit die normale verdeling. 
In formule (8.1) vonden we het betrouwbaarheidsinterval voor het gemiddelde van een nor- 





male verdeling bij betrouwbaarheid В en œ = Ё 
{ — wf, Ze E Һи): — 
x —ula)- —=, X Hula): — 
Jn е7 


Vergelijking met formule (8.9) geeft аап dat = = и(о) · "e moet zijn. Anders gezegd: er 
n 


moet voldaan zijn aan de formule 


и? (о) а? 
n= (8.10) 
ei 

waarin n de grootte is van de steekproef met het gemiddelde x, terwijl и(о) met met 
@ == IP het positieve getal is dat in de standaardnormale verdeling een rechteroverschrij- 
dingskans o heeft. 
Uit formule (8.10) volgt dat bij een gegeven betrouwbaarheid de nauwkeurigheid van een 
intervalschatting des te groter is naarmate de steekproef groter is. En ook: hoe kleiner de 
steekproef, hoe kleiner de nauwkeurigheid. 
Voor het gebruik van formule (8.10) is het noodzakelijk dat men weet hoe groot о is. Voor 
het geval с niet bekend is, kan deze ruwweg geschat worden door de spreidingsbreedte 
van een niet al te grote steekproef-vooraf door 6 te delen (immers de spreidingsbreedte van 
een normaalverdeelde variabele 15 ongeveer бо, want bijna alle waarnemingsuitkomsten 
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liggen tussen u — Зс en и + Зо). Blijkt na invulling van de aldus verkregen schatting van 
с in formule (8.10) de berekende steekproefomvang n groter te zijn dan die van de reeds 
genomen steekproef-vooraf, dan neemt men een aanvullende steekproef tot de berekende 
steekproef grootte n bereikt is. Men beschouwt dan de beide steekproeven samen weer als 
steekproef-vooraf en start de procedure opnieuw. Dit doet men net zo lang (in de praktijk 
meestal 2 á 3 keer) totdat de omvang van alle reeds genomen steekproeven samen minstens 
gelijk is aan de berekende steekproef grootte. 


Voorbeeld 6 

Een docent wil door middel van een steekproef het gemiddelde schatten van de scores 
(gehele getallen tussen О en 100) van een bepaald tentamen, waaraan 2000 studenten 
hebben deelgenomen. Hij wenst deze schatting bij een betrouwbaarheid van 95% te 
maken met een nauwkeurigheid van 2 scorepunten. Uit ervaring weet de docent dat 
tentamenscores bij goede benadering normaal verdeeld zijn. Hoeveel studenten moet de 
docent in zijn steekproef opnemen wanneer bekend is dat de laagst behaalde score 31 en 
de hoogst behaalde score 97 bedraagt? 


Oplossing 

Voor de standaardafwijking с van de populatie kan, gezien de veronderstelling dat de 
97 = 31 

scores bij benadering normaal verdeeld zijn, worden gekozen: с = ——— = 11 


Met 6 = 0,95, dus о = 0,025 en и(о) = 1,96 vinden we met = = 2 volgens formule 
(8.10): 
1,96 x 11} 


We ess, Ss 116,2. 
2 


Om de bedoelde schatting met de gewenste betrouwbaarheid en de gewenste nauwkeu- 
righeid te kunnen maken, zal de docent van minstens 117 studenten de tentamenscore 
moeten vaststellen. 


De geschetste methode is slechts geldig wanneer er sprake is van een steekproef met te- 
ruglegging of van een steekproef zonder teruglegging uit een voldoende grote populatie. Is 
hieraan niet voldaan, dus is er sprake van een steekproef zonder teruglegging uit een relatief 
kleine populatie, dan dient formule (8.10) lettend op formule (7.13) gecorrigeerd te worden. 


Opgaven 


1. a. Ное groot is de kans om in de t-verdeling met 18 vrijheidsgraden een waarde t van 
Т te vinden die ligt tussen —2,101 en 2,678? 
b. Ное groot is de kans om in de t-verdeling met 60 vrijheidsgraden een waarde £ van 
T te vinden die kleiner is dan —2,000 of groter is dan 2,660? 
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с. Welke waarde t van T heeft in de t-verdeling met 10 vrijheidsgraden: 
— een rechteroverschrijdingskans van 5%? 
— een linkeroverschrijdingskans van 2,5%? 
— een rechteroverschrijdingskans van 90%? 
— een linkeroverschrijdingskans van 99%? 


a. Ное groot is de kans om in de х *-verdeling met 10 vrijheidsgraden een waarde van 
х? te vinden die groter is dan 18,31? 

b. Ное groot is de kans om in de x°-verdeling met 24 vrijheidsgraden een waarde van 
х2 te vinden die kleiner is dan 13,85? 

с. Ное groot is de kans dat de waarde van х? in de x*-verdeling met 72 vrijheidsgra- 
den kleiner is dan 60 of groter is dan 80? 

d. Welke waarde уап у^ heeft in de x*-verdeling met 18 vrijheidsgraden: 
— een rechteroverschrijdingskans van 5%? 
— een linkeroverschrijdingskans van 1%? 

е. Welke waarde уап у^ heeft in de x°-verdeling met 50 vrijheidsgraden: 
— ееп rechteroverschrijdingskans уар 2,5%? 
— een linkeroverschrijdingskans уап 10%? 


Het aantal lucifers per doosje is bij benadering normaal verdeeld met een standaardaf- 

wijking van 10 stuks. In een steekproef уап 10 doosjes trof men achtereenvolgens 112, 

101, 105, 119, 95, 104, 98, 110, 100 en 97 lucifers aan. 

a. Bereken ееп 90%-betrouwbaarheidsinterval voor het gemiddelde aantal lucifers per 
doosje. 

b. Neem aan dat о niet bekend is en beantwoord nogmaals vraag a. 


Het hoofd van de kwaliteitsdienst van een fabriek waar condensatoren vervaardigd wor- 
den, wil op basis van een steekproef van 250 condensatoren met een gemiddelde ca- 
paciteit van 90 Farad, met een betrouwbaarheid van 95% een intervalschatting maken 
van de gemiddelde capaciteit van de condensatoren in de partij waaruit die steekproef 
afkomstig is. Neem aan dat de standaardafwijking van de 6000 condensatoren in de 
bedoelde partij bekend is: deze bedraagt 5 Farad. 

Bereken het gewenste 95%-betrouwbaarheidsinterval. 


Om de sterkte van een bepaald type fietsband te bepalen, werden 9 banden zo ver op- 
gepompt, dat ze kapot sprongen. De druk waarbij dit gebeurde bleek achtereenvolgens 
te zijn: 


8,2 9,6 11,0 8,9 91 10,4 102 8,6 9,4 
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10. 


Wanneer aangenomen mag worden dat deze druk, waarbij opgepompte fietsbanden van 


dit type kapot springen (“maximumdruk’ genoemd), normaal verdeeld 15, bereken dan 
een 99%-betrouwbaarheidsinterval voor de gemiddelde maximumdruk. 


Wanneer bij het testen van een bepaalde eigenschap van 10 exemplaren van een bepaald 
product de standaardafwijking van de 10 gevonden meetwaarden s = 2 bedraagt, bere- 
ken dan een 90%-betrouwbaarheidsinterval voor de variantie van de normaal verdeelde 
waarden van de betreffende producteigenschap. 


Een audiometrist heeft bij 49 aselect gekozen medewerkers van bedrijven met veel 
omgevingslawaai de reactietijd op een bepaald auditief signaal gemeten. Voor het ge- 
middelde van de 49 reactietijden vond hij x = 0,7 seconden. 

a. Wanneer uit vroeger onderzoek bekend is dat de bedoelde reactietijd normaal ver- 
deeld is met standaardafwijking o = 0,2 seconden, bereken dan een 95%-betrouw- 
baarheidsinterval voor de gemiddelde reactietijd van alle medewerkers uit de be- 
doelde bedrijven. 

b. Welk minimum aantal medewerkers moet de audiometrist bij zijn onderzoek be- 
trekken wanneer hij de gemiddelde reactietijd wil schatten met een betrouwbaar- 
heid van 95% en een nauwkeurigheid van 0,02 seconden? 

c. Wanneer uit vroeger onderzoek wel de normaliteit maar niet de standaardaf wijking 
van de reactietijden bekend is, beantwoord dan nogmaals vraag a wanneer van de 
daar bedoelde 49 reactietijden de standaardafwijking s = 0,2 seconden bedraagt. 


Bij een stembusenquête, enige tijd voor de verkiezing van de Tweede Kamer, zeiden 
300 van de 900 ondervraagde kiesgerechtigden dat ze zouden gaan stemmen op partij 
А. Bereken een 95%-betrouwbaarheidsinterval voor het percentage kiesgerechtigden, 
dat van plan is op partij A te gaan stemmen. 


Ten aanzien van een bepaald productieproces wordt de eis gesteld dat dit bij een juiste 

afstelling van het gemiddelde een standaardafwijking o = 5 heeft. 

a. Wanneer een steekproef van 16 producten een standaardafwijking s = 6,5 bezit, 
bereken dan een 90%-betrouwbaarheidsinterval voor de variantie van het produc- 
tieproces. 

b. Iser, behoudens een onbetrouwbaarheid van 10%, reden om aan te nemen dat het 
productieproces niet de juiste standaardafwijking heeft? 


Bij een MMO-onderzoek (Multi Moment Opnamen) van een machinepark vond men na 
3600 waarnemingen de volgende cijfers: in bedrijf 68%, stilstand 16%, reparatie 6% en 
onderhoud 10%. Bereken voor elk van deze 4 posten een 99%-betrouwbaarheidsinterval. 
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9.1 Inleiding 


In het dagelijks leven worden veel beweringen en veronderstellingen gedaan. Van sommige 
beweringen kan vrij eenvoudig worden nagaan of deze al of niet juist zijn. 

Als iemand bijvoorbeeld zegt dat een bepaald pad langer is dan 100 m, kan door nameting 
eenvoudig worden nagaan of de bewering juist is of niet. 

Als iemand zegt dat route A naar zijn werk korter is dan route B, kunnen we door de beide 
routes te rijden nagaan of deze bewering juist is. Moeilijker wordt het als de bewering als 
volgt luidt: ‘Gemiddeld ben ik via route A sneller op mijn werk dan via route B’. Door 
allerlei oorzaken zijn er dagelijks variaties in de tijd die over beide routes gedaan wordt. Er 
is dus spreiding in de tijd en dit geeft problemen bij het doen van uitspraken over het al of 
niet waar zijn van de bewering. 

Om toch iets te kunnen zeggen over dit soort van beweringen, komen we op het terrein van 
de statistische toetsen. 

We geven twee inleidende voorbeelden. 


Voorbeeld 1 

Met een proef beoogde iemand te onderzoeken of het behandelen van een bepaalde rub- 
bersoort met een chloorhoudende stof de slijtweerstand van rubber vergroot. De on- 
derzoeker nam uit een partij aselect 10 proefstukjes van het rubber en verdeelde elk 
proefstukje in tweeën. De ene helft werd behandeld met de chloorhoudende stof en de 
andere helft werd onbehandeld gelaten. De keuze van de te behandelen helft werd over- 
gelaten aan het lot (bijvoorbeeld door het werpen van een munt). De slijtweerstand van 
de 10 monsterparen (behandeld en onbehandeld) werd op een apparaat gemeten. De 10 


verschillen in slijtweerstand, behandeld minus onbehandeld, zijn in tabel 9.1 gegeven. 


12,7 т 
De waarde van het gemiddelde verschil v = Ke 1,27 is positief. Dit suggereert dat 


de behandeling met de chloorhoudende stof gunstig is. De spreiding tussen de individu- 
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Tabel 9.1 Verschil in slijtweerstand van proefstukjes rubber 


proefstuk verschil V 
nr behandeld - onbehandeld 


2,6 
3.1 
-0,2 
1,7 
0,6 
Lä 
at 
1.1 
-0,2 


10 0,6 


y 12,7 


ele resultaten is echter vrij groot. Om nu een betrouwbare conclusie te kunnen trekken, 
doet men een zogenaamde significantietoets. Later zullen we zien hoe deze verloopt. 


Voorbeeld 2 

Een bepaalde kwaal kan behandeld worden met medicijn A. Uit ervaring is bekend dat 
in 50% van de gevallen de klachten van de kwaal na drie dagen zijn verholpen. Er is 
nu een nieuw medicijn B ontwikkeld, waarbij uit voorstudies lijkt alsof dit medicijn B 
effectiever is. Om een beslissing te nemen over de effectiviteit van medicijn B, wordt 
er een proef gedaan waarbij aan 100 patiënten medicijn B wordt toegediend. Het aantal 
patiënten, waarbij de klachten van de kwaal na drie dagen zijn verdwenen, wordt geteld. 
Op basis van dit aantal zal een beslissing worden genomen over de effectiviteit van me- 
dicijn B ten opzichte van medicijn A. Maar bij welk aantal ‘herstelden’ kan aangenomen 
worden dat medicijn B werkzamer is dan medicijn A? Het zal duidelijk zijn dat, indien 
bij 50 van de 100 patiënten de klachten verdwijnen, we niet besluiten dat B beter is dan 
А. De vraag is nu: ‘hoeveel meer dan 50 zijn er nodig’? Is 51 al voldoende, of 55, 60, 
75? Dus hoeveel patiënten moeten binnen drie dagen hersteld zijn, voordat geconclu- 
deerd kan worden dat medicijn B beter is dan medicijn A? Ook hier zal een statistische 
toets uitkomst moeten bieden. We komen hier later op terug. 


9.2 Theorie van het toetsen 


Bij de beide gegeven voorbeelden willen we een antwoord hebben op de vraag: 
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‘Kan het gevonden gemiddelde verschil worden toegeschreven aan toevallige oorzaken, of 
is het gevonden verschil groter dan op grond van het toeval mag worden verwacht?’ 
Kortgezegd willen we weten of we te maken hebben met een toevallige afwijking, of met 
een systematische afwijking. 
In dit laatste geval spreekt men van een significante of aantoonbare afwijking. 
In voorbeeld 1 vragen we ons af of de waarde van het gevonden gemiddelde verschil 
(v = 1,27) significant afwijkt van uy = 0. Als dit inderdaad zo is, is er geen verschil 
tussen behandeld en onbehandeld rubber ten aanzien van de slijtweerstand. 
In voorbeeld 2 zullen er door toevallige oorzaken schommelingen in het aantal herstelden 
zijn in verschillende steekproeven. We willen een criterium aanleggen waarop we besluiten 
dat medicijn B wel of niet beter is dan medicijn A. 
In de twee gegeven voorbeelden kunnen we 4 situaties onderscheiden waarin we terecht 
kunnen komen bij het nemen van een beslissing. 
I. Ме beslissen dat chloorbehandeling een verbetering geeft ten aanzien van de slijtweer- 
stand, terwijl dit in werkelijkheid niet het geval is (voorbeeld 1) 
We beslissen dat het medicijn B effectiever is dan medicijn A, maar in werkelijkheid is 
dit niet het geval (voorbeeld 2). 
2. Chloorbehandeling geeft geen verbetering ten aanzien van de slijtweerstand en we be- 
slissen dat ook (voorbeeld 1). 
Medicijn B is niet effectiever dan medicijn A en we beslissen dat ook (voorbeeld 2). 
3. We beslissen dat chloorbehandeling geen verbetering geeft ten aanzien van de slijt- 
weerstand, terwijl dit wel het geval is (voorbeeld 1). 
We beslissen dat medicijn B niet effectiever is dan medicijn A, terwijl dit wel het geval 
is (voorbeeld 2). 
4. _Chloorbehandeling geeft een verbetering ten aanzien van de slijtweerstand en we be- 
slissen dat ook (voorbeeld 1). 
Medicijn В is effectiever dan medicijn А en we beslissen dat ook (voorbeeld 2). 


In de situaties 1 en 3 hebben we (ongewild) een beslissing genomen die niet met de werke- 
lijkheid overeenkomt. Bij de situaties 2 en 4 hebben we een beslissing genomen die wel met 
de werkelijkheid overeenstemt. We moeten er nu voor zorgen dat we zo weinig mogelijk in 
situaties 1 en 3 komen te verkeren. 

In situatie 1 spreken we in de statistiek van een fout van de eerste soort en in situatie 3 
spreken we van een fout van de tweede soort. 

Bij het toetsen beginnen we te veronderstellen dat er niets aan de hand is, dus dat er geen 
verschillen zijn tussen de bestaande situatie en de ‘nieuwe’ situatie. Deze veronderstelling 
vooraf noemt men de nulhypothese, aangegeven door het symbool Ho. 

Naast de nulhypothese kennen we de alternatieve hypothese, aangeduid door het symbool 
Н|. In de alternatieve hypothese wordt vaak het tegengestelde van de nulhypothese aange- 
geven, vaak datgene wat juist aangetoond moet worden. 

We nemen nu verder voorbeeld 1 als uitgang voor de bespreking van de toetsingstheorie. 
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Voor dit voorbeeld kunnen we de volgende hypothesen opstellen (de nulhypothese, respec- 
tievelijk de alternatieve hypothese): 


Ho : uy =0 
Ні : Hv #0 


Gezien het feit dat een steekproefgemiddelde v, door toevalsvariaties, niet precies overeen- 
komt met het veronderstelde populatiegemiddelde uy (= 0), kan bij een ‘afwijking’ van v 
ten opzichte van uy niet zonder meer geconcludeerd worden dat ег in werkelijkheid ook 
verschillen zijn. De waarde v = 1,27 kan aanleiding geven tot de bewering dat de proces- 
verandering (behandelen met een chloorhoudende stof) invloed heeft op de slijtweerstand. 
Met een dergelijke bewering lopen we een zeker risico. Het risico is hier dat er in werke- 
lijkheid geen verschil is en dat slechts door toeval de afwijkende waarde van v = 1,27 ten 
opzichte van uy = 0 tot stand 15 gekomen. 

Wil men bij een bewering het risico van een foute bewering aangeven, dan is het wenselijk 
daarvoor een getalswaarde in te voeren. Het is gebruikelijk dit als volgt te doen. 

Het risico van de bewering ‘er is een reële verandering opgetreden’ wordt vertaald in de 
kans dat een waarnemingsresultaat als het gevondene louter toevallig is ontstaan. Deze kans 
wordt de overschrijdingskans genoemd. Om de overschrijdingskans van de meetwaarde van 
de betreffende variabele te kunnen berekenen, moet de kansverdeling van de variabele be- 
kend zijn. Daarbij wordt aangenomen dat de genoemde vooronderstelling (nulhypothese) 
waar is dat er geen verandering heeft plaatsgehad. Deze aanname geeft ons de parame- 
ters van de kansverdeling. De kansvariabele waarop de bewering gebaseerd wordt heet de 
toetsingsvariabele. 

Nu keren we terug naar voorbeeld 1. Gezien de aard van de toets dient de toetsingsvariabele 
in dit geval een maat voor de ligging van het kenmerk ‘verschil in slijtweerstand’ te zijn. 
We kiezen hiervoor het gemiddelde verschil in behandelingsresultaat (naam V met waarde 
0). 

Naarmate de gevonden overschrijdingskans kleiner is, hebben we minder vertrouwen in Ho 
en zijn we meer geneigd deze te verwerpen. Men verwerpt Ho dan, als de overschrijdings- 
kans onder of op een van tevoren vastgestelde grenswaarde komt. Die gekozen grenswaarde 
wordt de onbetrouwbaarheidsdrempel (of kortweg onbetrouwbaarheid) genoemd en wordt 
aangeduid met het symbool о. 

Het risico van de bewering ‘er is een reële verandering opgetreden’, terwijl er in wer- 
kelijkheid geen verandering heeft plaatsgevonden, is dus de kans om Ho ten onrechte te 
verwerpen. Dit is de maximale kans op het maken van een fout van de eerste soort. 

Als onbetrouwbaarheidsdrempel kiest men meestal de waarde 0,05 (о = 0,05). Men heeft 
dan een kans van 5% op een fout van de eerste soort. Anders gezegd: als de nulhypo- 
these juist is en in een groot aantal gevallen getoetst wordt, zal in gemiddeld 1 op de 20 
gevallen een waarde voor de toetsingsvariabele worden gevonden, waarbij Ho ten onrechte 
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verworpen wordt (en dus een fout van de eerste soort gemaakt wordt). 
Als Ho wordt verworpen, doen we uitspraken als: 

— eriseen reële verhoging (of verlaging) geconstateerd; 

— het gevonden gemiddelde ligt systematisch hoger (of lager); 

— de gevonden verhoging (of verlaging) is significant. 


Opmerking 

a. Het niveau van de overschrijdingskans wordt vaak aangegeven met één of meer ster- 
retjes. Bijvoorbeeld: 
ОЛ =P a G03 * 
0,001 = Р < 0,0] ** 


P = (001. Ж 
р. De formulering ‘onder aanname уап de nulhypothese Но’ wordt meestal verkort tot 
‘onder Ho’. 
9.2.1 Fout van de eerste soort versus fout van de tweede soort 


Uit het voorgaande blijkt dat als de bij de waarde van toetsingsvariabele gevonden over- 
schrijdingskans groter is dan de gekozen onbetrouwbaarheidsdrempel œ, Ho niet wordt ver- 
worpen. Dit betekent echter niet dat Ho dan ook juist moet zijn. Het niet verwerpen betekent 
slechts dat er geen reden 15 Но onjuist te achten en dat men de nulhypothese daarom aan- 
vaardt (vergelijkbaar met een verdachte die vrijgesproken wordt wegens gebrek aan bewijs). 
Het is dan ook gebruikelijk om bij niet-verwerpen de conclusie voorzichtig te formuleren, 
bijvoorbeeld: een reële verandering kon niet worden aangetoond op grond van het beschik- 
bare waarnemingsmateriaal. 


In figuur 9.1 is de linker kansverdeling de (normale) verdeling van (de waarden van) de toet- 
singsvariabele, onder aanname dat de nulhypothese Ho : ш = po juist is. Wanneer bij de (in 
een steekproef) gevonden waarde van de toetsingsvariabele een rechteroverschrijdingskans 
hoort die kleiner is dan de vooraf gestelde о, wordt de nulhypothese verworpen. Dit is het 
geval wanneer de gevonden waarde rechts van de waarde c op de horizontale as in figuur 
9.1 ligt. In het geval dat de waarde van de toetsingsvariabele daadwerkelijk groter is dan с, 
wordt Ho verworpen, terwijl Ho blijkbaar toch juist kan zijn. Het risico op het nemen van 
deze foute beslissing is dus maximaal gelijk aan «. 

Uit het voorgaande blijkt dat ook aan het niet-verwerpen van Ho een risico is verbonden. 
Indien het werkelijke gemiddelde anders ligt dan in Ho verondersteld is, is het toch mogelijk 
dat Но niet verworpen wordt. Het ten onrechte niet-verwerpen van Ho wordt aangeduid als 
een fout van de tweede soortf. 


De samenhang tussen с en В 
De samenhang tussen о еп В wordt in figuur 9.1 weergegeven. Stel eens dat het werkelijke 
gemiddelde veel groter 15 dan uo. De nulhypothese (u = шо) is dan niet waar, dus is de 
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alternatieve hypothese Hı : y > Un waar. De toetsingsvariabele heeft dan bijvoorbeeld 
de rechterverdeling (u = ш) in figuur 9.1. Wanneer de met een steekproef gevonden 
waarde van de toetsingsvariabele in dat geval links ligt van x = с, zouden we ten onrechte 
de conclusie trekken dat de nulhypothese waar is. De linkeroverschrijdingskans van de 
toetsingsvariabele is dan kleiner dan В, de fout van de tweede soort. Uit figuur 9.1 is op te 
maken dat de kans op het maken van een fout van de tweede soort kleiner zal zijn naarmate 
het ‘werkelijke’ gemiddelde verder rechts van ug (= gemiddelde onder Ho) ligt. Immers bij 
gelijkblijvende a zal de rechtse normale verdeling verder naar rechts opschuiven waardoor 
het hieronder, links van х = с gelegen oppervlak 8 kleiner zal worden. 


kansverdeling onder н kansverdeling onder H, 











Fig. 9.1 Samenhang tussen fout van de eerste soort (œ) en van de tweede soort (6) 


Verder is В afhankelijk van de keuze уап de onbetrouwbaarheidsdrempel о. Als men bij- 
voorbeeld « van 0,05 verkleint naar 0,01 (waardoor c in figuur 9.1 opschuift naar rechts), 
neemt de kans op het niet ontdekken van een afwijkend gemiddelde ten opzichte van Un toe. 
Wanneer (nog steeds in figuur 9.1) het werkelijke gemiddelde gelijk is aan dezelfde и |, zal 
de linkeroverschrijdingskans В groter worden. Er wordt dus eerder een fout van de tweede 
soort gemaakt. 

We kunnen (bij vaste steekproef grootte) de kans op een fout уап de ene soort verkleinen, 
maar daarbij wordt echter de kans op een fout van de tweede soort vergroot. Ten slotte hangt 
de fout van de tweede soort nog af van de steekproef grootte n. Bij vaste « en bij toenemende 
п zal de kans op een fout van de tweede soort (6) kleiner worden. Bij toenemende л zal 
de toevallige afwijking van de toetsingsvariabele ten opzichte van het gemiddelde kleiner 
worden. We zullen hier later dieper op ingaan. 

Bij de keuze van de onbetrouwbaarheidsdrempel en de grootte van n dient men de ernst van 
de verschillende mogelijke risico’s tegen elkaar af te wegen. Uiteraard spelen kostenover- 
wegingen hierbij een rol. In de volgende paragraaf zullen we de toetsingsprocedure nader 
uiteenzetten. 
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9.2.2 Algemene gang van zaken bij het toetsen van hypothesen (toetsings- 


procedure) 


Omdat bij alle toetsen steeds dezelfde stappen moeten worden doorlopen, gaan we de gang 
van zaken bij het toetsen punt voor punt in een zogenaamde toetsingsprocedure samenvat- 


ten. 


б. 


Probleemstelling 

De gestelde vraag wordt geanalyseerd. Wat wil de onderzoeker precies weten en wat 
wil hij aantonen? Uit de probleemstelling moet blijken wat getoetst moet worden en in 
welke afwijkingen hij geïnteresseerd is. 


Opstellen van de nulhypothese 

Deze is veelal een ontkenning van wat de onderzoeker wil aantonen. Vermoedt hij 
bijvoorbeeld dat een gemiddelde groter is dan 25, dan luidt de nulhypothese: het ge- 
middelde is gelijk (of <) аап 25. Indien Ho is geformuleerd, ligt ook Hı vast. In 
Hı wordt dan verwoord wat de onderzoeker wil aantonen. In de formulering van de 
nulhypothese komt altijd het =-teken voor. 


Keuze van de onbetrouwbaarheidsdrempel a 
Doorgaans neemt men о = 0,05, tenzij ег een speciale reden 15 om een hogere of een 
lagere waarde te kiezen. 


Keuze van de toets 

Het is gebruikelijk de toetsen te onderscheiden naar aard van de toetsingsvariabele (of 
toetsingsgrootheid). Soms bestaan er verschillende toetsen voor een bepaalde hypo- 
these Ho. Een belangrijk criterium bij de keuze daartussen wordt gevormd door de 
kans op een fout van de tweede soort bij de mogelijke alternatieve hypothesen. Deze 
moet klein zijn bij die alternatieve hypothese die men het belangrijkst acht. Is dat bij 
een bepaalde toetsingsvariabele het geval, dan noemt men het onderscheidingsvermo- 
gen (= 1 — В) van de betreffende toets tegen die hypothesen groot. Verder wordt de 
keuze van de toets bepaald door: 

— de verdeling van de uitkomsten (normale of een andere verdeling); 

— wat getoetst moet worden (gemiddelden, spreidingen, enzovoorts). 


Uitvoering van de toets 
De waarde van de toetsingsvariabele wordt berekend uit de waarnemingsuitkomsten. 


Bepaling overschrijdingskans 

De overschrijdingskans, onder de nulhypothese, van de berekende toetsingsvariabele 
wordt bepaald. Hiervoor wordt de kansverdeling van de toetsingsvariabele gebruikt 
(meestal met behulp van tabellen of met een programma zoals EXCEL). 
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7. Statistische conclusie 
De gevonden overschrijdingskans (Р) van de toetsingsvariabele (zie punt б) wordt ver- 
geleken met de gekozen onbetrouwbaarheidsdrempel œ (zie punt 3). Indien P < a 
wordt Ho verworpen. Als Р > a, wordt Ho niet verworpen. De conclusie kan stelli- 
ger zijn naarmate de overschrijdingskans verder van de onbetrouwbaarheidsdrempel o 


af ligt. 


8. Technische conclusie 
We moeten nu nog vertalen wat de statistische conclusie betekent. Dit is het antwoord 


op de in punt 1 gestelde vraag. 


Aanvullende opmerkingen ten aanzien van het toetsen 

Bij alle toetsen gaan we, evenals in de rechtspraak, ervan uit dat ‘de verdachte’ onschuldig 
is, met andere woorden: de nulhypothese geeft die situatie weer waarbij niets afwijkend aan 
de hand is. Vandaar dat in de nulhypothese altijd het =-teken voorkomt (> of < bevat ook 
een =-teken). 


Voorbeeld 3 

Als vervolg op voorbeeld 1 beginnen we met de veronderstelling, dat chloorbehandeling 
van rubber geen invloed heeft op de slijtweerstand (dat wil zeggen er is geen verschil 
tussen voor еп na de behandeling: het gemiddeld verschil 15 0). We kunnen dan de 
volgende hypothesen toetsen: 

Ho: uy = 0 tegen Hi : uy Æ 0 (tweezijdig) 

Óf Hı : uy < О (linkseenzijdig) 

Óf Hi : uy > О (rechtseenzijdig) 


Voorbeeld 4 

Als vervolg op voorbeeld 2 veronderstellen we dat medicijn B minder dan of even effec- 
tief is als medicijn A. De hypothesen luiden dan: 

Но: pg < pa tegen Hi : рв > pa. Hierin is pa de fractie van het aantal zieke personen 
dat na drie dagen met gebruik van medicijn A genezen is, idem voor pg. 


Voorbeeld 5 
Wil men een machineafstelling controleren ten aanzien van een normwaarde, dan luiden 


de hypothesen: 
Ho: u = цо (uo = normwaarde) tegen Hi: u Æ uo òf Hi: u < uo òf Hi: u > шу 


Voorbeeld 6 
Willen we de spreidingen van twee machines vergelijken door middel van varianties, 
dan veronderstellen we bij de nulhypothese dat de beide machines dezelfde spreiding 
hebben, dus: 

Ho: а SS Ze? tegen Hi: с^ séi 0% òf Hu: F < a òf Hi: e? > oO 
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Uit bovenstaande voorbeelden blijkt dat er verschillende alternatieve hypothesen mogelijk 
zijn. Afhankelijk van de alternatieve hypothese worden drie gevallen onderscheiden bij het 
toetsen: 


a. Rechtseenzijdige toetsing, indien het interessegebied rechts ligt. Het zijn de hypothesen 
waarin steeds een >-teken voorkomt (zie fig. 9.2a). 

b. Linkseenzijdige toetsing, indien het interessegebied aan de linkerkant ligt. Het betreft 
hypothesen waarin steeds een <-teken voorkomt. (zie fig. 9.2b). 

с. Tweezijdige toetsing, indien het interessegebied aan weerszijden ligt. Dit 15 het geval 
in de eerste Hı veronderstelling in de voorbeelden 3, 5 en 6 (zie fig. 9.2c). In de 
formulering komt ееп #-teken voor. 


Dus afhankelijk van de probleemstelling onderscheiden we eenzijdige (links of rechts) en 
tweezijdige toetsen. 


Pik \ ZN / ER 


/ \ / 
| А \ 
f А | | 


o a ` j ' ‚ / 
/ „ i х \ а i 
BW: D p. AS x ES kK ` 


\ Va a 
a. Rechteroverschrijdingskans b. linkeroverschrijdingskans с. Tweezijdige overschrijdingskans 











Fig. 9.2 De drie verschillende overschrijdingskansen « 


We hebben al gezien dat de onbetrouwbaarheid(sdrempel) of kans op een fout van de eerste 
soort aangegeven wordt door œ. De waarde 1 — œ wordt de betrouwbaarheid genoemd. 
Daarnaast kennen we de kans op een fout van de tweede soort, aangeduid met 8. De waarde 
1 — В wordt het onderscheidingsvermogen van de toets genoemd. 

Dit kan als volgt schematisch weer worden gegeven. 













werkelijkheid 


Lë 
(= onderscheidingsvermogen) 






o (= kans op fout van 
de eerste soort) 








Ho verwerpen 








Beslissing 










В (= kans op fout van 
de tweede soort) 


Ho niet 
verwerpen 





1-a (= betrouwbaarheid) 


Fig. 9,3 Beslissingsschema 
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9.2.3 Een uitgewerkt voorbeeld 
De zojuist gegeven toetsingsprocedure zullen we aan de hand van voorbeeld 1 nalopen. 
Hierbij moesten we toetsen of behandeling met een chloorhoudende stof de slijtvastheid 
van rubber verhoogt. We hebben metingen verricht aan een aantal behandelde monsters 
en onbehandelde monsters en bepaalden de waarde van het verschil V in slijtvastheid van 
behandeld en onbehandeld rubber (zie de tabel bij voorbeeld 1). 
I. Probleemstelling 
Er moet worden nagegaan of chloorbehandeling een positieve invloed heeft op de slijt- 
weerstand. 
2. Opstellen van de hypothesen 
Ho: Шу = цо = 0 
Hi: uy > О (We zijn alleen geïnteresseerd in een positieve invloed.) 
3. Keuze van de onbetrouwbaarheid 
œ = 0,05 (eenzijdig). Dat de toets eenzijdig is kunnen we afleiden uit procedurepunt 2 
bij de alternatieve hypothese А]. 
4. Keuze van de toetsingsvariabele 
Als toetsingsvariabele nemen we het gemiddelde verschil in slijtweerstand (V met 
waarde v), tussen behandeld rubber en onbehandeld rubber. Uit hoofdstuk 7 weten 
we dat V, onder de veronderstelling dat de nulhypothese waar is, een normale verde- 


o 
ling volet met pg = He = Оеп op = —L. Om de toets daadwerkelijk te kunnen 
85 VOIS ү V ӯ = Ј 


uitvoeren, hebben we de standaardafwijking nodig van de verschilvariabele У. Voor 
het gemak veronderstellen we de standaardafwijking van de gemiddelde verschillen 
bekend en onafhankelijk van de meetprocedure (later zullen we zien hoe we in werke- 
lijkheid met deze standaardafwijking moeten omgaan). Neem aan dat o y = 1,126. De 
steekproefgrootte was 10 (zie voorbeeld 1). Hiermee is de verdeling van V bekend. 
5. Bepaling van de waarde van de toetsingsvariabele 
Op basis van de steekproef vonden we v = 1,27 (het gemiddelde verschil tussen onbe- 
handeld en behandeld). 
6. Bepaling van de kritieke waarde 
De toetsingsvariabele V volgt onder de nulhypothese een normale verdeling, met: 
ир =Oenoy = 1,126. 
We onderzoeken nu wat de kans is, dat V > 1,27 in deze normale verdeling. Om 
deze kans te berekenen, gebruiken we de standaardnormale verdeling (u-verdeling). 
Daarvoor is de transformatie 
V — uy 
р 


U = (9.1) 





nodig. Bij de gevonden waarde voor V (v = 1,27) hoort een u-waarde 
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De rechteroverschrijdingskans van 3,57 opzoeken in tabel B1 van de standaardnormale 
verdeling levert: 
РЕС 5. 3.97) = 0,0002 

7. Statistische conclusie 
De overschrijdingskans van de toetsingsvariabele is kleiner dan o = 0,05 (rechtseen- 
zijdig). Conclusie: Ho wordt verworpen ten gunste van Hi. 

8. Vertaling 
Op grond van de steekproef van 10 strookjes rubber kan men concluderen dat chloor- 
behandeling een positieve invloed heeft ор de slijtweerstand van rubber, met een onbe- 
trouwbaarheid van maximaal 5%. 


9.2.4 De samenhang tussen de constructie van betrouwbaarheidsinterval- 

len en het toetsen van hypothesen 
In hoofdstuk 8 hebben we met behulp van kansverdelingen betrouwbaarheidsintervallen 
voor de parameters van populaties geconstrueerd. Er is een relatie tussen deze betrouw- 
baarheidsintervallen en het toetsen van hypothesen ten aanzien van deze parameters. Het 
(1 — «)-betrouwbaarheidsinterval bevat alle waarden van de te onderzoeken toetsingsvari- 
abele, waarbij de nulhypothese niet wordt verworpen (bij toetsing met een onbetrouwbaar- 
heidsdrempel a). De grenswaarden van het betrouwbaarheidsinterval komen overeen met 
de zogenaamde ‘kritieke’ waarden bij het toetsen. Deze kritieke waarden vormen dus de 
grenswaarden, waarbij de nulhypothese nog net niet wordt verworpen. Waarden van de 
toetsingsvariabele die kleiner respectievelijk groter zijn dan deze kritieke waarden leiden 
tot het verwerpen van de nulhypothese. Dit leidt tot een iets andere opzet van de toetsings- 
procedure. 





Verwerpen Ho 
(= kritieke gebied) 


Verwerpen Ho 
(= kritieke gebied) 


| І 
Ondergrens Bovengrens 


(= kritieke waarde) (= kritieke waarde) 


Fig. 9.4 Samenhang grenzen betrouwbaarheidsinterval en toetsen van hypothesen 


Voorbeeld 7 
Noem de opnameduur van een patiënt in een bepaald ziekenhuis X. De directie van 
het ziekenhuis zegt dat de gemiddelde opnameduur 5 dagen is. Uit een steekproef van 
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36 aselect gekozen patiënten zijn de volgende resultaten berekend over de opnameduur: 


Em OLENE =5.2. 


De vraag is nu: stemt dit resultaat overeen met de uitspraak van het ziekenhuis? (Toets 


met о = 0,05.) 
Oplossing 
We zullen dit probleem oplossen met de vernieuwde opzet van een toetsingsprocedure. 
1. Toetsingsprocedure: onderzocht moet worden of de waarde уап de gemiddelde op- 
nameduur in het ziekenhuis 5 dagen is. 
2. Hg: py den Hi ну 39. 
3. о = 0,05 (tweezijdig). 
4. Het steekproefgemiddelde X is nu niet normaal verdeeld omdat de standaardafwij- 
king onbekend is. Toetsingsvariabele is nu de variabele 
Т = Kz En (9.2) 
d Зх 
Jn 
кыыз | = зна SX 
Hierin is иу = uy en Sy is de standaardafwijking van X. De waarde van E 
wordt vaak standaardfout genoemd. 
Deze variabele T volgt onder Ho een t-verdeling met v = n — 1 vrijheidsgraden 
(verklaring: zie paragraaf 8.3.2). 
5. Waarde van de toetsingsvariabele 7? Om deze te kunnen berekenen, hebben we de 
steekproefresultaten nodig. Deze zijn x = 6,2 en s = 5,2. Voor n kunnen we nemen 
й = 36, 
б. Het vervolg van de toetsingprocedure verloopt nu op de vernieuwde manier (a) en 


op de ‘oorspronkelijke’ manier (b) als volgt. 


a. Werken met kritieke waarden 
(= grenzen van de tweezijdige betrouwbaarheidsinterval). De onbetrouwbaarheid 
о wordt naar beide zijden gelijk (= 0,025) verdeeld. 
Daar o onbekend 15, nemen we de waarde t van de t-verdeling met v = n—1 = 35 
vrijheidsgraden en 8 = 1 — а = 0,95 (tweezijdig). In de t-tabel (B5) vinden we 
(bij œ = 0,025) een t-waarde г = 2,03. 
De kritieke waarden of grenswaarden van het betrouwbaarheidsinterval worden: 


н | $ 5.2 3 24 — 6.7 
8 X | 5 Ж £ | ы = CG / № ©! A 
ki 2 =X 135(у@) Ja =o E 20 Sé Rer Dus kı = 3,24 en К» 6,76 


Het 95%-betrouwbaarheidsinterval is: 3,24 < u < 6,76. 

Het gebied waarbij de nulhypothese wordt verworpen (= kritiek gebied), wordt 
begrensd door de waarden: 3,24 en 6,76. In het gebied dat ligt tussen 3,24 en 
6,76 wordt Но daarom niet verworpen. 
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De toetsingsvariabele T = 6,2 ligt daadwerkelijk tussen Ку = 3,24 en А = 6,76. 
De toetsingsvariabele ligt dus niet in het kritieke gebied. Conclusie: Ho wordt 
niet verworpen. 


b. Procedure met behulp van overschrijdingskansen 
lets anders verloopt de procedure als we eerst de overschrijdingskansen bereke- 
nen. | 
та 6,2—5 
We bepalen de overschrijdingskans van T met waarde ——— = 1,38 (onder 


м 36 


de aanname dat Ho waar is, dus иу = иу = 5). De toetsingsvariabele is een 
trekking uit een t-verdeling met v = 35. 

De overschrijdingskans wordt opgezocht in de t-tabel bij v = 35. Uit deze tabel 
(B5) valt op te maken dat: 

0,05 < Р(Т,—з5 > 1,38) < 0,10 (rechter kritieke waarden, dus eenzijdig). 

Bij tweezijdige toetsing betekent dit (vermenigvuldiging van linker- en rechterlid 
met 2): 

DIE = РЄТ» з > 1,38) = 0,20, 

De overschrijdingskans van T is in beide gevallen groter dan o = 0,05. Но wordt 
daarom niet verworpen. 

Op grond van dit onderzoek kan niet worden vastgesteld dat de gemiddelde op- 
nametijd afwijkt van 5 dagen. (o = 0,05). 


9.3 Het toetsen met betrekking tot gemiddelden en spreidin- 
gen (de u-toets, t-toets en x°-toets) 


In de vorige paragraaf zijn de begrippen en de principes van het toetsen, als ook de toe- 
passingsprocedure ter sprake gekomen. In deze paragraaf bespreken we een aantal veelge- 
bruikte ‘klassieke’ toetsen. 

Deze toetsen zijn steeds gebaseerd op de veronderstelling dat de meetwaarden (bij benade- 
ring) normaal verdeeld zijn. 


9.3.1 Toets voor ееп populatiegemiddelde waarbij с bekend is (u-toets) 
In de vorige paragraaf zijn de u-toets en de t-toets al even naar aanleiding van voorbeelden 
aan de orde geweest. We gaan nu deze toetsen nog eens formeel en algemeen bekijken. 
Als we een toets willen uitvoeren ten aanzien van het gemiddelde van een normaal ver- 
deelde populatie (met kenmerk = variabele X), maken we gebruik van het steekproef gemid- 
delde X van een aselecte steekproef, getrokken uit die populatie. We gebruiken de waarde 
van het steekproefgemiddelde x om een conclusie te trekken over populatiegemiddelde. 
Bij tweezijdige toetsing wordt Ho: и = Un (normwaarde) getoetst tegen Hi: и # ио. 
Neem aan dat de standaardafwijking van de populatie, waaruit de steekproef afkomstig is, 
bekend is (о). 
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De toetsingsprocedure (op de oorspronkelijke manier, dus zonder de kritieke waarden te 
berekenen) verloopt als volgt. 
I. Vraagstelling 
De vraag is of het gemiddelde van een bepaalde populatie (u) gelijk is aan een gespe- 
cificeerde normwaarde (uo). 
2. Het opstellen van de hypothesen 
Ho: u = uo en Hi: u £ що 
3. Неї vaststellen van de grootte van o 
Voor o wordt meestal oe = 0,05 genomen. Vanuit de alternatieve hypothese wordt 
vastgesteld of o eenzijdig of tweezijdig moet worden genomen. 
4. Het vaststellen van de toetsingsvariabele 
De toetsingsvariabele X is gebaseerd op het steekproefgemiddelde x, dat onder aan- 


name van Ho een normale verdeling volgt. Aan het eind van hoofdstuk 7 hebben we ge- 
2] 


zien dat het steekproefgemiddelde X normaal verdeeld is met ш у = po eno e = SCH 
De verdeling van X is dus bekend omdat с bekend is. 

5. Het berekenen van de toetsingsvariabele 
Bepaal de waarde van de toetsingsvariabele X, dus bereken х. 

6. Het bepalen van de overschrijdingskans van de toetsingsvariabele 
Bepaal de overschrijdingskans van X, met behulp van Xx. 


Bij rechtseenzijdig toetsen (als х > u): 


X — Ho 
z 093) 





Р(Х> х) = PID > 


Indien uit de alternatieve hypothese blijkt dat toetsing tweezijdig moet worden uitge- 
voerd, vermenigvuldig de gevonden overschrijdingskans dan met 2. 

7. Statistische conclusie 
Vergelijk de gevonden overschrijdingskans van X met o en verwerp Ho als deze over- 
schrijdingskans kleiner is dan «. 

8. Rapportage 
De vertaling naar de gestelde vraag in stap 1. 
Indien de alternatieve hypothese zodanig is dat er een eenzijdige toetsing moet worden 
uitgevoerd, verandert er in principe alleen in de procedurestappen 6 en 7 iets. We zijn 
dan maar in ‘één kant’ geïnteresseerd en de overschrijdingskans uit stap 6 wordt niet 
met 2 vermenigvuldigd. 


Voorbeeld 8 
Er wordt een onderzoek gedaan naar het afwijkende bestedingspatroon van een bepaalde 
provincie ten opzichte van het landelijk bestedingspatroon. Gekeken wordt naar de be- 
steding per huishouden per week aan voeding. De gemiddelde landelijke besteding aan 
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voeding per huishouding is 158 euro per week, met een variantie van 900 euro. Een 
aselecte steekproef van n = 100 in de provincie geeft een gemiddelde besteding aan 
voeding van 168 euro per week. In een regionale krant wordt nu gesteld dat de be- 
steding aan voeding in deze bepaalde provincie gemiddeld hoger ligt dan het landelijk 
gemiddelde. Kan op grond van de steekproef deze bewering onderschreven worden? 


Oplossing 

We doorlopen de genoemde toetsingsprocedure. 

І. De vraag is of de gemiddelde besteding (per week) aan voeding in een bepaalde 
provincie hoger is dan het landelijk gemiddelde. 

2. Mo: m = 158 en Hi: и > 158. 

а = 0,05 (eenzijdig). 

4. X volgt onder de nulhypothese ееп (standaard-normale) u-verdeling (o? = 900, dus 
15 с bekend). 

5. "е waarde van X is berekend: х = 168. 


2 

О 
: ame a A) ы алы e 
oi — = то = 9, 8 «зу = VO = 3. 


Х n 
н 168 — 158 
P(X > 168) = P(U > a GE. = P(U > 3,33) = 0,0004. 


ie 


7. De overschrijdingskans уап х is veel kleiner dan o = 0,05. De nulhypothese wordt 
daarom verworpen ten gunste van de alternatieve hypothese. 

8. De besteding aan voeding in deze provincie 15, zoals de krant vermeldde, inderdaad 
hoger dan het landelijk gemiddelde. 


Opdracht 

Bepaal het ‘kritieke gebied’ door die waarde k van X te berekenen waar vanaf de nulhy- 
pothese in twijfel getrokken moet worden (in dit geval de kleinste waarde van k waarvoor 
geldt P(X > k) < 0, 05). 


Het onderscheidingsvermogen 

Naar aanleiding van het laatste voorbeeld kunnen we ook iets zeggen over het onderschei- 
dingsvermogen (1 — B). Indien Ho niet wordt verworpen, wil dit nog niet zeggen dat Ho 
inderdaad ook juist 15. 

In figuur 9.5 is deze situatie voor het laatste voorbeeld in beeld gebracht. 

We willen de fout van de tweede soort berekenen voor een van de alternatieven, bijvoorbeeld 
voor het gemiddelde: u = 171. 

Indien Н waar is, volgt het steekproefgemiddelde X in dat geval een normale verdeling 
met gemiddelde u; = 171 en variantie e = 2 sn U, 

De kritieke waarde (k) vinden we met behulp van de onbetrouwbaarheid o = 0,05, onder 
de voorwaarde dat de nulhypothese waar is. 
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verdeling onder Hu | verdeling onder H. 
Е ————- 





В о 


Fig. 9.5 Kans op een fout van de tweede soort 


К — 158 

Er geldt: и(0,05) = 
4,95 + 158 = 162,94. 
Voor het bepalen van de kans ор een fout van de tweede soort (6), bepalen we de kans op een 
uitkomst kleiner dan de kritieke waarde k = 162,94, onder de aanname dat Н! (u = 171) 
waar is. 
Onder aanname van H; geldt: 

e (v 162,94 — 171 
б — 
We zien dat de -fout erg klein 15. Dit is te danken аап twee omstandigheden, namelijk dat: 
— п vrij groot is, waardoor de standaardafwijking van X (= о x) klein wordt; 
— de gemiddelden van de nulhypothese en de alternatieve hypothese tamelijk ver uit elkaar 

liggen. 


‚ met u (0,05) = 1,65 (tabel ВІ) dus: К = 1,65 x v9 + 158 = 





) = P(U < —2,69) = P(U > 2,69) = 0,0036 


In zijn algemeenheid kunnen we opmerken dat we de f-fout kleiner kunnen krijgen, door 
de steekproefomvang groter te nemen. Daardoor vergroten we ook het onderscheidingsver- 
mogen (1 — В) bij een gegeven а. 

In dit voorbeeld toetsten we met de u-toets (o is bekend) of een gemiddelde u ongelijk is 
аап een gespecificeerde u. 

Onder Ho volgt de variabele U = Eel 





een standaardnormale verdeling (N (0, 1)), met 


Be 
Og = z (n is de steekproefgrootte). 
Indien Ho: и = цо waar is, is de kans om Ho ten onrechte te verwerpen maximaal gelijk 
aan «. 
Stel nu: u = Hi Æ Un In dit geval is de kans om Ho te verwerpen groter dan o en des 
te groter naarmate ш verder уап ug af ligt. Ook geldt: de kans dat Ho in dat geval (ten 
onrechte) aanvaard wordt is В, dus de kans om Ho (terecht) te verwerpen is 1 — В. We 
kunnen voor verschillende waarden van u de kans berekenen op het verwerpen van Ho en 
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dit grafisch uitzetten als functie van u (zie figuur 9.6). We noemen de ontstane curve de 
kromme van het onderscheidingsvermogen (OC-curve). 














a | 


0 — алы | 
д, u Fu 











Fig. 9.6 Kromme van het onderscheidingsvermogen (OC-curve) 


9.3.2 Toets voor een populatiegemiddelde met onbekende е? (t-toets) 

In de meeste gevallen zal de variantie o? niet bekend zijn. We kunnen dan de u-toets niet 

gebruiken, maar zijn aangewezen ор de zogenaamde t-toets, waarbij we іп plaats van u- 

waarden, de f-waarden gebruiken van de t-verdeling van Student. 

Uit hoofdstuk 8 weten we: indien we een steekproef hebben uit een populatie met populatie- 

gemiddelde и en onbekende variantie, volgt het steekproefgemiddelde, onder Ho: u = Ho, 

een t-verdeling met v = n — 1 vrijheidsgraden. 

A = Ш. 
E? 
Ko 


De toetsingsprocedure is, op een aantal kleine onderdelen na, dezelfde als die uit de vorige 


De overschrijdingskans van X wordt bepaald met de toetsingsvariabele: T = 


paragraaf. 
Aan de hand van voorbeeld 9 zullen we de toetsing weer stap voor stap uitvoeren. 


Voorbeeld 9 

Een fabrikant wil weten of het zoutgehalte in een partij mosterd hoger is dan 16%. Hij 
neemt daartoe een aselecte steekproef van n = 5 uit de partij en wenst bij toetsing een 
onbetrouwbaarheid о = 0,05. De uitkomsten van de steekproef zijn: 15,7 — 16,3 — 16,5 
— 15,9 en 16,3 


Oplossing 
|. Is het zoutgehalte van mosterd hoger dan 16%? 
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кә 


Ho: u = 16% en Hi: u > 16% 
a = 0,05 (eenzijdig). 
4. Als toetsingsvariabele nemen we 


0 


e 
Pen 


(9.4) 





EX 
Ko 
die onder de nulhypothese een t-verdeling volgt met v = n — 1 vrijheidsgraden. 
5. Uit de steekproef bepalen we de waarde van X (= х) еп S (= s) en vinden: х = 
16,14 en s = 0,329. 


б. We bepalen de overschrijdingskans van T door de bijbehorende waarde te berekenen 
onder de voorwaarde dat Ho waar is (u = 16): 


zu 16,1416 
E 0,329 


- = 0,95 
vr 75 


f == 





In de t-tabel vinden we bij v = 5 — 1 = 4 een overschrijdingskans die groter is dan 
10% (eenzijdig). 


7. De gevonden overschrijdingskans is groter dan е = 0,05 en dus wordt Ho niet 
verworpen. 
8. Ор grond van dit onderzoek 15 niet aangetoond dat het zoutgehalte in mosterd hoger 
is dan 16%. 
Opdracht 


Bepaal de kritieke waarde voor X, dat wil zeggen de kleinste waarde k waarvoor geldt: 
P(X > К) < 0,05, zodat bij een steekproefgemiddelde > К de nulhypothese verworpen 
dient te worden. 


9.3.3 Toets voor een fractie 
Het toetsen van een fractie p van een binomiale verdeling lichten we toe aan de hand van 
het volgende voorbeeld. 


Voorbeeld 10 

Voor een oude wijk van gemeentewoningen is enige tijd geleden een renovatieplan ont- 
worpen waarmee, blijkens een toen gehouden onderzoek een fractie 0,75 van de hoofd- 
bewoners in principe kon instemmen. Inmiddels zijn enige financiële aspecten duidelij- 
ker naar voren gekomen, onder andere de noodzakelijke huurverhoging voor de gereno- 
veerde woningen. Een actiegroep is nu van mening dat de fractie p van instemmers thans 
beduidend lager is dan 0,75 en acht een nieuw onderzoek noodzakelijk. De gemeente 
vindt een volledig nieuw onderzoek te kostbaar en wenst de hypothese p = 0,75 te toet- 
sen tegenover de alternatieve hypothese p < 0,75 op grond van een aselecte steekproef 
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van 100 hoofdbewoners. Het aantal instemmers in de steekproef blijkt gelijk te zijn aan 
70. Blijkt nu, aan de hand van dit onderzoek, dat de fractie instemmers kleiner is gewor- 
den? We nemen aan dat de omvang van de populatie oneindig groot is ten opzichte van 
de steekproefomvang. 


Oplossing 

De toetsingsprocedure verloopt als volgt: 

1. Is de fractie instemmers kleiner dan p = 0,75? 

2. Hg: p = Olsen Нүр = 0,74, 

3. а = 0,05 (eenzijdig). 

4. Als toetsingsvariabele nemen we K = het aantal instemmers in de steekproef. K 
volgt, onder aanname van Hg een binomiale verdeling met n = 100 еп p = 0,75. 
Daar de steekproefomvang (n = 100) groter is dan go TE 8 = 27, mogen 
we deze binomiale verdeling (zoals aangetoond in hoofdstuk 6) benaderen door ееп 
normale verdeling met и = np = 100 x 0,75 = 75 епос = np(l — p) = 
100 x 0,75 x 0,25 — 4:33, 

5. In de steekproef hebben we 70 instemmers gevonden. 

6. We bepalen nu de overschrijdingskans van K = 70, indien de nulhypothese waar is 
(let ор de continuïteitscorrectie): 

Р(К < 70| Ho) = PU < 252) = P(U < —1,04) = 0,1492 (eenzijdig). 

7. De gevonden overschrijdingskans is groter dan o = 0,05 en dus wordt Ho niet 
verworpen. 

8. Op grond van dit onderzoek mag geconcludeerd worden dat p = 0,75 nog steeds 
geldt, althans dat het resultaat van de steekproef geen reden vormt om hiervan af te 


wijken. 


Opdracht 
Bereken de kritieke waarde voor р, dus de grootste waarde К waarvoor geldt: 
Pip = Б) 5 0,03. 


In dit voorbeeld hebben we kunnen zien dat het toetsen van een hypothese die geldt voor 
een fractie, kan geschieden met behulp van de normale verdeling. Dit was mogelijk omdat 
de steekproef groot genoeg was. 


9.3.4 Het toetsen van een variantie; toetsing met behulp van de х? -verdeling 
Naast het toetsen van een (hypothese ten aanzien van) een gemiddelde of een fractie is 
er in de praktijk ook vaak behoefte aan het toetsen van een variantie. Met behulp van de 
x”-verdeling (zie ook paragraaf 8.4) is een dergelijke toetsing mogelijk. 

De toetsingsvariabele is de steekproefvariantie. Indien de meetwaarden (bij benadering) 
normaal verdeeld zijn, volgt de variabele: 
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п — 1)5$° 
‚2 эк =з (9.5) 


een x*-verdeling, met v = n — 1 vrijheidsgraden. De toetsing zullen we uitvoeren аап de 
hand van het volgende voorbeeld. 


Voorbeeld 11 

De standaardafwijking van de (normaal verdeelde) diameters van nylon kogeltjes voor 
een bepaald soort kogellagers mag overeenkomstig de geldende kwaliteitsnorm niet 
meer bedragen dan 0,3 mm. Bij een controle vond men in een steekproef уап n = 25 
kogeltjes een standaardafwijking s = 0,4 mm. Volgt hieruit dat de dagproductie waaruit 
deze steekproef afkomstig is wat de spreiding van de diameters van de kogels betreft niet 
aan de gestelde eis voldoet? 


Oplossing 


De toetsingsprocedure verloopt als volgt. 





1. Is de standaardafwijking van de kogeldiameters D in de bedoelde dagproductie gro- 
ter dan o = 0,3 mm? 

2. Ноу: с =0,09en Hi: oz > 0,09. 

3. a = 0,05 (eenzijdig). 

4. Als we de variantie van de diameters in een steekproef уап n kogels uit ееп dag- 

| | 5 | > _ (п—1)$% 
productie aanduiden met 57, volgt de kansvariabele у^ = = SEL « 
С 
р 

verdeling met v = п — 1. 

5. De variantie in de steekproef van 25 waarnemingen bedraagt 0,16. 

| n— Is? 

6. De overschrijdingskans van c = ad = = ы = 42,67 wordt opgezocht 

Ж; om 

in де x*-tabel (tabel Вб) bij v = 25 — 1 = 24 vrijheidsgraden. We vinden een 
overschrijdingskans die kleiner is dan 0,01 (eenzijdig). 

7. De gevonden overschrijdingskans is kleiner dan o = 0,05. De nulhypothese wordt 
daarom verworpen ten gunste van de alternatieve hypothese. 

8. De spreiding van de diameters in de dagproductie wijkt af van de norm op = 0,3 
mm. 

Opdracht 


Bepaal het kritieke gebied voor $3. 


Indien de steekproefomvang voldoende groot (n > 30) is, mag men het geheel ook be- 
naderen door een normale verdeling met и = v en с = V/2v (zie hoofdstuk 8, bij chi- 


kwadraatverdeling). 
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Voorbeeld 12 
We gaan uit van het vorige voorbeeld, maar nemen nu een steekproef van 65 kogels in 
plaats van 25. De standaardaf wijking in de diameters in deze steekproef is sp = 0,4 mm. 


Oplossing 
Voor de toetsingsprocedure verandert er alleen iets in de bepaling van de overschrijdings- 
2 
inert e 2_ -185p Wi 4 
kans van у^. Onder Ho volgt x^ = RSC een normale verdeling met u ‚2 = 65 еп 
D 


су = /2 х 65 = 11,40. De overschrijdingskans van х? berekenen we als volgt: 





| (п – Is? ч | 
De waarde с van х? op basis van de steekproef is e= a == 200 == 115,78. 
e | 
` D 
P(x? > 113,78) = PU > H278) = P(U > 4,27) « 0,0002. 
Deze kans is veel kleiner dan œ = 0,05 еп dus wordt Ho verworpen ten gunste van Hi. 


9.4 Vergelijkings- of verschiltoetsen 


In voorbeeld 1 vergeleken we de slijtvastheid van rubber na en voor behandeling met een 
chemische stof. Om deze vergelijking te kunnen maken, hebben we het verschil bepaald van 
de slijtvastheid na en voor de bewerking. Met behulp van de verschilvariabele V hebben 
we vervolgens een toets uitgevoerd, waarbij als toetsingsvariabele het gemiddelde verschil 
werd gehanteerd. We zagen hier al een voorbeeld van een vergelijkingstoets oftewel een 
verschiltoets. In deze paragraaf zullen we hier dieper op ingaan. Eerst zullen we twee 
verschiltoetsen laten zien ten aanzien van het gemiddelde verschil, daarna zullen we ook 
varianties en fracties met elkaar vergelijken. 

De twee eerst te behandelen toetsen zijn uitsluitend toepasbaar voor gemiddelden van ase- 
lecte steekproeven uit (bij benadering) normale verdelingen. Wanneer niet aan deze eis 
voldaan is, zullen andere, zogenaamde verdelingsvrije methoden gebruikt moeten worden. 
Deze vallen buiten het kader van dit boek. 

Aan de hand van het volgende voorbeeld zullen we zien dat we bij het toetsen van de ge- 
lijkheid van twee gemiddelden, twee situaties moeten onderscheiden: gepaarde en niet- 
gepaarde waarnemingen. 


Voorbeeld 13 

We willen de slijtweerstand van een bepaalde rubbersoort verbeteren door het rubber te 
behandelen met een chloorhoudende stof. Voor het onderzoek kunnen we uitgaan van 
twee soorten ‘proefopzetten’. 


Experiment 1 
Uit een groot aantal stukken rubber kiezen we aselect 10 stukken. Elk van de 10 stukken 
verdelen we in tweeën. Het ene deel krijgt een behandeling met de chloorhoudende stof, 
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het andere deel blijft onbehandeld. Daarna wordt in willekeurige volgorde de slijtweer- 
stand van de 20 stukken rubber bepaald. 


Experiment 2 

Uit een groot aantal stukken rubber kiezen we aselect 20 stukken. Daarna verdelen 
we de 20 stukken rubber aselect in twee groepen van 10 stukken. De ene groep van 
10 stukken rubber wordt behandeld met de chloorhoudende stof, de andere groep blijft 
onbehandeld. Daarna wordt in willekeurige volgorde de slijtweerstand van de 20 stukken 
rubber bepaald. 


In experiment 1 hebben we paren gevormd van steeds één stuk rubber. Van ieder paar 
wordt er aselect één behandeld en één blijft onbehandeld. 

Bij experiment 2 hebben we 20 onafhankelijke stukken rubber, waaruit twee steekproe- 
ven zijn gevormd (wel en niet behandeld), die onafhankelijk van elkaar zijn. De twee 
steekproeven (wel en niet behandeld) in experiment 1 zijn niet onafhankelijk. De stuk- 
ken rubber worden paarsgewijs vergeleken. 

Het verschil in beide experimenten komt duidelijk naar voren bij de rekenprocedure en 
de toetsingsprocedure. 

We zullen de twee experimenten uitvoeren aan de hand van dezelfde gegevens. Hierdoor 
komt dan de ‘winst van een opzet met gepaarde waarnemingen duidelijk naar voren. 
Opgemerkt dient echter te worden dat we in de praktijk niet kunnen kiezen welke reken- 
procedure we kunnen nemen. Op grond van het experiment ligt de toetsingsprocedure 
vast. 

In beide experimenten willen we onderzoeken of er verschil bestaat tussen behandelde 
en onbehandelde monsters. In tabel 9.2 zijn de benodigde gegevens weergegeven. 

Bij het experiment met gepaarde waarnemingen bepalen we steeds het verschil in slijt- 
weerstand van het uit één stuk rubber afkomstige paar, waarbij een deel behandeld is en 
het andere deel onbehandeld is gebleven. 

In tabel 9.2 (laatste kolom) zien we dat het gemiddelde verschil tussen de 10 paren 
behandelde en onbehandelde stukken rubber gelijk is aan: v = 1,27. 

De variantie van de verschillen is: 85 = 1,269. 

De variantie van het gemiddeld verschil is: 


EE 0,1269 
V n j $o 
Bij de twee onafhankelijke steekproeven bepalen we eerst het gemiddelde en de variantie 
van de behandelde stukken rubber (steekproef X) en daarna het gemiddelde en de varian- 
tie van de onbehandelde stukken rubber (steekproef Y). Het gemiddelde verschil tussen 
behandelde en onbehandelde monsters heeft een waarde: v = x — y = 12,87 — 11,60 = 


1,27. 
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Tabel 9.2 Slijtweerstand van rubbermonsters 
slijtweerstand 


behandeld (X) onbehandeld (Y) verschil (V = X — Y) 
paar nr. 





Хх у й = х — 9 

| 14,7 12,1 2,6 

2 14,0 10,9 3,1 

3 12,9 13,1 -0,2 

4 16,2 14,5 1,7 

5 10,2 9,6 0,6 

6 12,4 112 1,2 

7 12,0 9,8 2,2 

8 14,8 13,7 1,1 

9 11,8 12,0 -0,2 

10 9,7 9,1 0,6 
х = 12,87 ў = 11,60 й к= Lë? 
я = 4,305 e == 4,201 sj == 1,269 





De variantie van het gemiddelde verschil 52 vinden we als volgt (bij het verschil van 
twee variabelen moeten we de varianties optellen): 


2 ‚2 


A A 
2 = А = А0 + “у 04305 + 0,3291 = 0,7596 
n n 





We zien dat het gemiddelde verschil in beide proefopzetten gelijk is aan v = 1,27. De 
variantie van de gemiddelde verschillen wijken echter nogal van elkaar af (0,1269 ten 
opzichte van 0,7596). Toch zijn beide varianties schattingen van dezelfde o°. 

Het grote verschil tussen de eerste еп de tweede schatting van с? wordt verklaard, 
doordat de tamelijk grote verschillen tussen de stukken rubber bij experiment 1 worden 
geëlimineerd en in experiment 2 volledig in de berekening worden meegenomen. 

We kunnen dit als volgt zien: 

Stel we tellen bij paar nr.8, zowel bij de x- als bij de y-waarde 20,0 op, hierdoor veran- 
dert het verschil tussen x en у bij paar nr.8 niet; dus ook niet de schatting van o*. Bij de 
twee onafhankelijke steekproeven wordt de variantie van zowel (steekproef) X, als van 
(steekproef) Y groter en daarmee ook de schatting van oi, 

Omdat wij een verschil tussen de behandelde en de onbehandelde stukken rubber willen 
aantonen, vormen de ‘normale’ verschillen tussen stukken rubber een storende factor, 
die we graag willen elimineren. Als de omstandigheden het toelaten, zullen we altijd 
uitgaan van een experiment met gepaarde waarnemingen. Hierbij moet direct worden 
opgemerkt dat dit niet altijd mogelijk is. 
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We zullen ons nu toeleggen op de toetsing van beide typen experimenten. We maken dus 
onderscheid tussen: 

a. toetsing bij twee gepaarde steekproeven; 

b. toetsing bij twee onafhankelijke steekproeven. 


9.4.1 Toets voor het verschil van twee gemiddelden bij gepaarde waarne- 
mingen 

Deze toets is in principe gelijk aan de t-toets voor één populatiegemiddelde. We werken 

uitsluitend met het verschil V, binnen de paren van waarnemingen (v; = х; — yi). 

Bij toetsing van de nulhypothese Ho: uy = О gaan we uit van de veronderstelling dat de 

verschillen vj, v2, …, onderling onafhankelijke, aselecte trekkingen zijn uit een normale 

verdeling met gemiddelde uy = 0 en variantie o". Als toetsingsvariabele gebruiken we 


V, waarbij geldt dat onder aanname van Ho de variabele T = (met waarde: t = 
HS 

0 — Hy V — Hy 

ет Sy 


0 Jn 


paren is. We volgen de toetsingsprocedure voor de gegevens van de tabel (9.2). 


) een t-verdeling volgt met л — 1 vrijheidsgraden, waarbij n het aantal 


1. Heeft een chloorbehandeling van rubber tot gevolg dat de slijtweerstand wordt ver- 
hoogd? 

Hg: ру = Оеп Ait fy > 0 

œ = 0,05 (eenzijdig). 


A Lob 


Toetsingsvariabele V, die onder de nulhypothese een t-verdeling volgt met n — 1 vrij- 
heidsgraden. 
5. De gevonden waarde voor v is 1,27. De overschrijdingskans van V is voor deze waarde: 


_ 1,27 — 0 
P(V > 1,27) = P | T > |= P(T > 3,57). 


| 10 
б. In de t-tabel (B5) vinden we bij v = 9, dat 0,001 < P(T > 3,57) < 0,005. 
7. De gevonden overschrijdingskans is kleiner dan oe = 0,05. De nulhypothese wordt 
verworpen ten gunste van de alternatieve hypothese (onbetrouwbaarheid œ = 0,05). 
8. Door de rubber met een chloorhoudende stof te behandelen, verbetert de slijtweerstand. 





9.4.2 Toets voor het verschil van twee gemiddelden van twee onafhanke- 
lijke steekproeven 

We gaan uit van twee normaal verdeelde populaties van de kansvariabelen X en Y met 
gemiddelde respectievelijk иу en uy еп varianties e en @ Uit elk уап deze beide 
populaties wordt een aselecte steekproef getrokken van omvang nx respectievelijk ny (de 
beide steekproeven hoeven dus niet even groot te zijn). 

Voor de toetsing van de hypothese dat de twee populatiegemiddelden и y en uy van elkaar 
verschillen, kunnen we de t-verdeling gebruiken, als aan de voorwaarde is voldaan dat 
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Э А А А А А 
су = оү = с. Indien niet aan deze voorwaarde is voldaan, is exacte toetsing zeer 


moeilijk. 
Op de bekende wijze berekenen we de steekproefgemiddelden X en Y (waarden: x en y) 
en tevens у еп =, met respectievelijk vx = пх — len vy = ny — 1 vrijheidsgraden. Als 
toetsingsvariabele wordt gebruikt: V = X — Y, waarbij onder de nulhypothese geldt dat de 
variabele 


X = Y = (B = Bal 





een t-verdeling volgt met 
v = (пх – 1) + (ny — 1) = пх +ny—2 (9.7) 


vrijheidsgraden. 

De variabele 52 (onder het wortelteken) staat bekend als de gepoolde steekproefvariantie. 

De gepoolde steekproefvariantie wordt gebruikt als schatter van de populatievariantie o°. 

Deze gepoolde variantie is het gewogen gemiddelde van de twee afzonderlijke steekproef- 

varianties, met als weegfactoren het aantal vrijheidsgraden van de afzonderlijke steekproef- 

variantie (voor de bijbehorende formule, zie stap 4 in de navolgende toetsingsprocedure). 

Deze pooling mag alleen als zowel у. а1$ e schatters zijn van dezelfde т^ (of de standaard- 

afwijkingen van beide populaties daadwerkelijk gelijk zijn is te toetsen met behulp van de 

zogenaamde F-toets, zie de volgende paragraaf ). 

Voor de gegevens van het voorbeeld krijgen we de volgende procedure: 

|. Heeft de chloorbehandeling van rubber tot gevolg dat de slijtweerstand wordt ver- 
hoogd? 

2. Ho: их = uy oftewel uy — py = Оеп Hi: ux > Uy. 

3. а = 0,05 (eenzijdig). 


4. T heeft als waarde t = ———————=, met 


) с) 
VS% + VySy 
) 
а а А, (9.8) 
ух + уу 


onder de voorwaarde dat Ee en Se schatters zijn van dezelfde о>. 

T volgt onder Но een t-verdeling met v = vx + vy vrijheidsgraden. 

a 9 x4,305 +9 х 3,291 
B 9+9 


12,87 — 11,60 en 
t = ———————— = 1,46, met v = 9 + 9 = 18 vrijheidsgraden. 


\/3,798(тб + 10) 


éi $ =: 3:799 
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Tabel 9.3 Silicitumgehalte (%) van gietijzeren staven 
partij 1 partij 2 
11.9 7,7 
9,2 7,4 
8,6 8,9 
8,7 8,5 
1,9 7,5 
0,7 6,9 
8,5 9,4 
11,2 8,7 

6,4 

8,2 
Хт = 9:65 хэ = 7.96 
2 


sy = 1.254 855 = 0.889 


б. De overschrijdingskans van Т bij een waarde t = 1,46 is te vinden met behulp van de 
t-tabel (B5) bij v = 18 vrijheidsgraden. 
We vinden: 0,05 < P(T > 1,46) < 0,10 (eenzijdig). 

7. De overschrijdingskans уап T is groter dan а = 0,05. Conclusie: Ho wordt niet ver- 
worpen. 

8. Op grond van de gegevens uit de twee steekproeven, kan men niet concluderen dat een 
chloorbehandeling van rubber een vergroting van de slijtweerstand geeft. 


We zien dat in de bewoordingen van stap 8 de formulering erg voorzichtig is, want zoals we 
al gezien hebben, is bij een andere proefopzet (gepaarde waarnemingen) wel een vergroting 
van de slijtweerstand aan te tonen. 


Neem daarom de raad aan: “is het mogelijk om gepaarde waarnemingen te vergelijken, doe 
het’. 


Voorbeeld 14 

Om het silicitumgehalte (in %) van twee partijen gietijzeren staven te vergelijken, worden 
uit beide partijen een aselecte steekproef getrokken en hiervan wordt het silicitumgehalte 
bepaald. De resultaten zijn weergegeven in tabel 9.3. 


Oplossing 
Voor de toetsing doorlopen we weer stapsgewijs de toetsingsprocedure. 


І. Bestaat er verschil in silictumgehalte van de partijen? 
2. Ho: pi = ро oftewel шу — uy = деп Hi: шу # Us. 
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3. ао = 0,05 (tweezijdig). 
A Als Ху en Хә de gemidddelden zijn уап de beide steekproeven (met waarden Cen 
X2, volgt toetsingsvariabele T = Xi — Ka, onder Ho ееп t-verdeling, met v = 
(ny = 1) + (n2 — 1) vrijheidsgraden. 
3. M= Kerst = 1,254. 
х2 = 7,96 en sj = 0,889. 
Ze en сҳ zijn niet bekend, maar e en 85 verschillen echter weinig van elkaar (dit 
moeten we feitelijk toetsen; hierop komen we in de volgende paragraaf terug). We 
nemen aan dat o: en o: niet van elkaar verschillen en berekenen de gepoolde vari- 





antie 52: ? А 
о Vuë + 0255 7х 1,254 +9 х 0,889 16.784 
Д agen Рр шщ (ОН, 
vi Luz 1+9 
(01—22) 9,65 — 7,96 1,69 — 


Ие dan В — 0,486 
LSG + а) \/1,049(#++ 5) 

б. De overschrijdingskans van Т bij waarde t = 3,48 berekenen we met behulp van de 
t-tabel met v = vı + v2 =7 +9 = 16. 
We vinden: 0,001 < P(T > 3,48) < 0,005 (eenzijdig) of 0,002 < P(T > 3,48) < 
0,01 (tweezijdig). 

7. De overschrijdingskans van T is kleiner dan а = 0,05. Ho wordt verworpen ten 
gunste van Hi. 

8. De conclusie luidt: ‘de twee partijen gietijzeren staven hebben een verschillend sili- 
ciumgehalte’. 


= 3,48. 


9.4.3 Het vergelijken van twee varianties (F-toets) 

Om de gelijkheid van de varianties van twee normaal verdeelde populaties te toetsen, dienen 
we te beschikken over twee onafhankelijke aselecte steekproeven met omvang пд respec- 
tievelijk ng uit deze populaties. Van de beide steekproeven wordt de steekproef variantie 
bepaald Ca met waarde 94 еп Le met waarde S ). De toetsingsvariabele 


2 
54 


= 24 (9.9) 
d 


2 
5 
met waarde f = £, volgt onder de nulhypothese Ho: o: SS gä, een zogenaamde F- 
5 
В 
verdeling (genoemd naar de statisticus К.А. Fisher (1924)) met vı = пд — len v2 = пв – 1 


vrijheidsgraden. 


Opmerking 

De F-verdeling wordt volledig bepaald door het aantal vrijheidsgraden vj = nj — 1 van 
de variantie in de teller, respectievelijk v2 = n2 — 1 van de variantie in de noemer. Voor 
verschillende combinaties van vı en v2 zijn de kritieke F-waarden getabelleerd in de 
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tabellen B7, B8 en B9). In deze tabellen zijn alleen rechter kritieke waarden opgenomen. 
Op de theorie van de F-verdeling zullen we in dit boek niet verder ingaan. We zullen 
deze verdeling uitsluitend gebruiken om te toetsen of twee varianties aan elkaar gelijk 


zijn. 


Om 


Ho: e = 0% te toetsen, wordt, afhankelijk van de alternatieve hypothese Hi, de 


waarde f van de toetsingsvariabele F als volgt berekend: 


а. 


2 


| $ 
Te. 2 ba р 
Hı: съ < оъ , danis f = — 


а 
А 
De eenzijdige overschrijdingskans wordt afgelezen in de F-tabel bij vj = ng — 1 en 
v =na—l. 
2 
Es a? 2 аја PY 
1: 04 > ср „йай f =- 
SB 


De eenzijdige overschrijdingskans wordt afgelezen in de F-tabel bij vj = пд — 1 en v2 
= пв — 1. 


) 5 grootste steekproef variantie 
Hi: о, ж ор, ап 15 f = 


kleinste steekproef variantie 

De eenzijdige overschrijdingskans wordt afgelezen in de F-tabel bij vı en v2, met р 
= aantal vrijheidsgraden van de variantie in de teller en vs = aantal vrijheidsgraden van 
de variantie in de noemer. Indien tweezijdig getoetst moet worden, wordt de gevonden 
overschrijdingskans met twee vermenigvuldigd. 


Door consequent bovenstaande berekeningswijze toe te passen wordt bereikt dat uitsluitend 
te grote (significant groter dan 1) F-waarden tot verwerping van Ho leiden. 


Voorbeeld 15 
In het geval van het laatste voorbeeld hebben we aangenomen dat e? en б niet signifi- 
cant verschillen. We gaan dit nu toetsen. 


Oplossing 
De toetsingsprocedure verloopt als volgt: 


t, 


Bestaat er een verschil in variantie tussen het siliciumgehalte van twee partijen giet- 
ijzeren staven? 


п a ek Te- 2 
Ho: of =05en Hi: of #05. 


Onder (aanname van) Ho volgt toetsingsvariabele F = —, een F-verdeling met 


a = 0,05 (tweezijdig). 2 
| 
Kc 


vı = nj — len v2 = пә — 1 vrijheidsgraden. 
Berekening van de waarde f van F: 

5 » ; i 
sj = 1,254 en 55 = 0,889, zodat de waarde van de toetsingsvariabele wordt: f = 


Бан = 1,41, met vı = 8 — 1 = 7 en v2 = 10 — 1 = 9 vrijheidsgraden. 
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б. De overschrijdingskans van F bij f = 1,41 vinden we met behulp van de F-tabel 
bij vj = 7 enm. = 9, 
We vinden: P(F > 1,41) > 0,05 (eenzijdig) of P(F > 1,41) > 0,10 (tweezijdig). 

7. De gevonden overschrijdingskans is duidelijk groter dan о = 0,05. Conclusie: Ho 
wordt niet verworpen. 

8. Ор grond van het onderzoek kunnen we niet aannemen dat de twee steekproef vari- 
anties significant verschillen. 


9.4.4 Het vergelijken van twee fracties 
Het komt vaak voor dat twee fracties met elkaar vergeleken moeten worden. 


Voorbeeld 16 

Een geneesmiddelenfabrikant wenst een onderzoek in te stellen naar de werking van 
een nieuw medicijn tegen een bepaalde tropische ziekte. Daartoe werd aan een redelijk 
grote groep personen, die zich ter bestrijding van de bedoelde ziekte door een arts lieten 
behandelen gevraagd hun medewerking aan dit onderzoek te verlenen. Een groep van 
300 patiënten die daarop positief gereageerd hebben, wordt op aselecte wijze onderver- 
deeld in twee groepen van elke 150 personen, aan te duiden als groep 1 en groep 2. De 
150 patiënten van groep 1 krijgen het nieuwe medicijn toegediend, de 150 personen van 
groep 2 — de zogenaamde controlegroep — het traditionele geneesmiddel. Van de 150 
patiënten van groep 1 blijken na een van tevoren vastgesteld tijdsverloop 120 personen 
genezen te zijn. Voor de controlegroep is dit aantal 100. Kan uit deze gegevens gecon- 
cludeerd worden dat het nieuwe medicijn effectiever is dan het traditionele medicijn? 


Oplossing 

Duiden we voor het nieuwe respectievelijk oude medicijn de kans op genezing na een 
tijdsverloop aan met pj respectievelijk рэ en noemen we К respectievelijk K2 het aan- 
tal genezen patiënten in een steekproef van ny respectievelijk n2 personen, dan zijn Kı 
en Ко binomiaal verdeeld met de parameters nı en р, respectievelijk n2 en ро. 

Als nj en n2 voldoende groot zijn (ga dit altijd eerst па), dan kunnen deze binomiale 
verdelingen benaderd worden door normale verdelingen met als gemiddelde шу = nı pi 
respectievelijk и» = n2 p2. 

Voor de varianties geldt с? = nı pı(l — pı) respectievelijk o: = п2рә2(1 — p2). 


m | 5 1 
Daar pı еп р» onbekend, zijn gebruiken we de schatters voor pi: Pi = ——, respec- 
П 1 


e K> m 
tievelijk voor ро: P = —. Ook deze schatters voor pı en p2 zijn normaal verdeeld, 
nz 
met 
nı pı 


D Ka . pe 
ш = №. = ру en gi = Er B ы DGR, respectievelijk 
ni 
1 
2. р-р) 
Шо = prenoj= Sn. 


We willen nu toetsen of er een verschil bestaat tussen de beide fracties. Beter gezegd, of 
het ‘nieuwe’ medicijn effectiever is dan het ‘oude’ medicijn. 
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Als toetsingsvariabele nemen we het verschil van de fracties in beide steekproeven Py = 
Pi — P2. Mits Р en Р» onafhankelijk zijn, kan ook deze nieuwe kansvariabele Py door 
een normale verdeling worden benaderd met: 


Шу = Mi = Ш = рі – рә (9.10) 
1 — 1 — 

pi(d — pi) 4 pali — pa) (9.11) 
ni nj 


2 2 2 
бъ = 0—05 = 


Met behulp van bovenstaande gegevens kan de toetsingsprocedure worden uitgevoerd. 


1. 


2. 
3. 
4 


9.5 


Is medicijn 1 effeciever dan medicijn 2? 
Ho: рү = pen Hi: pi > рэ. 

œ = 0,05 (eenzijdig). 

De toetsingsvariabele Py = Р — Р» volgt onder Ho (pı = p2) een normale verde- 
ling met Hy = pi — р? geg Оеп et gem р1(1— pı) + Dn оз pi — pi) (2 mA ] ). 


7 п? 
De hierin voorkomende p; is niet bekend. Er zijn twee schattingen voor р] te geven: 


A k 
Р к= ` Ет = 0,8 en (onder aanname dat de fractie van de controlegroep 
ni | 
А k 
dezelfde is als die van de andere groep) Р = E e = = 0,667. Een goede 


n2 
schatting voor Py kan nu verkregen worden door de beide schattingen gewogen te 
middelen: 


ki Кә 

5 „ы-и er К К 

Py ка ni п _ LT Es (9.12) 
ni +» ni zk n3 


Invulling van de gegevens levert Py = Se = 0,733. 





De verdeling van de toetsingsvariabele Py is nu bekend. Deze is normaal verdeeld 
met у = 0 en еу = |/0,733(1 — 0,733) (15 + 15) = 0,051. 


De waarde уап de toetsingsvariabele Py is 0,8 — 0,667 = 0,133. De rechterover- 
schrijdingskans onder Ho bepalen we als volgt: 

P(Py > 0,133) = PU > 91757) = PU > 2,61) = 0,0045 (eenzijdig). 

De gevonden overschrijdingskans is kleiner dan o = 0,05, dus Ho wordt verworpen 
ten gunste van. Hı. 


Het ‘nieuwe’ medicijn is effectiever dan het ‘oude’ medicijn. 





De Chi-kwadraattoets voor verdelingen 


Met de chi-kwadraattoets (of x*-toets) kan men onder andere toetsen of een verdeling 
van meetuitkomsten een bepaalde theoretische verdeling (bijvoorbeeld normale, binomiale, 


Poisson- of uniforme verdeling) volgt. De procedure is als volgt. 
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Stel we beschikken over een (grote) steekproef, waarvan de waarnemingsuitkomsten. zijn 
gegroepeerd in een frequentieverdeling met m klassen. We willen nagaan of de waarne- 
mingsuitkomsten afkomstig zijn uit een bepaalde (theoretische) verdeling. Over de vorm 
van de verdeling is een veronderstelling te maken en deze veronderstelling stelt men dan 
ook in de nulhypothese. Op grond van de veronderstelde verdeling worden de verwachte 
frequenties in een aantal klassen berekend. Vervolgens wordt onderzocht (getoetst) of er 
een significant verschil bestaat tussen de gevonden frequentie in de verschillende klassen en 
de verwachte frequentie op grond van de theoretische verdeling. 

In alle gevallen wordt als toetsingsvariabele gebruikt: 


m 


2 
Sex e (9.13) 
=] еч 

waarin: т = aantal klassen in de frequentieverdeling. 

О; = waargenomen (Observed) frequentie in klasse i. 

E; = verwachte (Expected) frequentie in klasse i onder de nulhypothese. 

De toetsingsvariabele x° volgt onder de nulhypothese bij benadering ееп x *-verdeling met: 

v = т — g vrijheidsgraden (het bewijs wordt achterwege gelaten). Hierin is g het aantal 

gegevens dat uit de waargenomen frequentieverdeling berekend moet worden om de theo- 

retische frequentieverdeling te kunnen bepalen. 

Voor toepassing van de x*-benadering moet aan enkele voorwaarden zijn voldaan: 

a. de waarnemingsuitkomsten moeten uit één populatie afkomstig zijn; 

D we moeten ervoor zorgen dat de verwachte (= theoretische) frequentie Е; in iedere 
klasse groter dan 5 is. 

Geldt nu dat voor één of meer klassen dat E; < 5, dan kunnen we het beste de verwachte 

frequentie van de betreffende klasse bij die van de naastliggende klasse(n) optellen en daar- 

mee doorgaan tot voor iedere klasse geldt: E; > 5. Uiteraard moeten ook de correspon- 

derende klassen van de waargenomen frequenties op dezelfde manier worden behandeld. 

De x*-toets passen we toe ор de waarnemingsreeks met het verminderde aantal klassen. 

Is het aantal klassen op bovenvermelde wijze verminderd tot n dan geldt voor het aantal 

vrijheidsgraden: v = n — g. Het is hoe dan ook nodig om 1 van n af te trekken, omdat er bij 

het berekenen van de verwachte frequenties voor gezorgd moet worden dat de som van alle 

berekende frequenties gelijk is aan de som van alle waargenomen frequenties. Wanneer ook 

nog eerst a parameters geschat moeten worden om de theoretische frequentieverdeling te 

kunnen definiëren, gaan nog eens a vrijheidsgraden verloren. Er geldt dus v = n — (a + 1). 


Opmerking 

Wanneer een verdeling op normaliteit getoetst moet worden, moeten eerst u en с geschat 
worden voordat we de verwachte frequenties kunnen berekenen. In totaal gaan er in dat 
geval dus 2 + 1 = 3 vrijheidsgraden verloren: v = n — 3. 
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Voorbeeld 17 

We willen de zuiverheid van een dobbelsteen onderzoeken. De kansverdeling van het 
aantal ogen van een zuivere dobbelsteen volgt een rechthoekige of uniforme verdeling. 
(Elk aantal ogen heeft dezelfde kans om op te treden.) We werpen de dobbelsteen 120 
keer en noteren bij iedere worp de uitkomst van het aantal ogen. Op grond van de 
uniforme verdeling verwachten we in elke klasse Le = 20 uitkomsten. De volgende 
uitkomsten zijn verkregen: 


klasse | 2 3 4 5 6 


gevonden freq. (О) 16 19 27 17 23 18 
verwachte freq. (ЕЁ) 20 20 20 20 20 20 


Per klasse (cel) wordt de gevonden frequentie vergeleken met de verwachte frequentie 
(= 20). 
тир м, (Or — Буу” 
Als de dobbelsteen zuiver is, volgt er: x? = У, mar ch 
i=l i 
v = т — 1 vrijheidsgraden. Immers, er hoeven geen parameters uit de frequentieverde- 


ling geschat te worden. In de formule v = m — (a + 1) is a dus 0. 


А p) e 
is een x“-verdeling met 


De toetsingsprocedure in bovengenoemd voorbeeld is als volgt. 


d 


Is de dobbelsteen zuiver? We toetsen in wezen of de verdeling van de uitkomsten van 

de dobbelsteen een uniforme verdeling bezit. 

Ho: dobbelsteen is zuiver en Hi: dobbelsteen 15 niet zuiver 

Keuze onbetrouwbaarheid: œ = 0,05 (eenzijdig). 

De chi-kwadraattoets is altijd eenzijdig, daar alleen te grote x*-waarden leiden tot het 

verwerpen van de nulhypothese. 

| в. 1206 001 —– Е)" 

Uit te voeren toets is de chi-kwadraattoets, met х = A. ECH 

i=1 i 


e e . r} 
Berekening уап de waarde с уап toetsingsvariabele x^: 


> (0; – Е;)? 
Ог E 0;- Е (0 ~ Е)? шы п 


20 
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б. In de chi-kwadraattabel wordt de overschrijdingskans van de toetsingsvariabele onder 
de nulhypothese bij v = 5 bepaald. In tabel B6 vinden we een overschrijdingskans van: 


0,10 < P(x? > 4,40) < 0,50. 


7. Uitstap 6 concluderen we dat de overschrijdingskans van de toetsingsvariabele groter 
is dan œ = 0,05. Conclusie: De nulhypothese wordt niet verworpen. 
8. Eris geen reden om aan te nemen dat de dobbelsteen niet zuiver is. 


9.6 Het toetsen van onafhankelijkheid in een contingentietabel 


Contingentietabellen zijn tabellen die worden gebruikt om de onafhankelijkheid te toetsen 


tussen twee kenmerken. 


Van belang bij contingentietabellen zijn de randtotalen, die de marginale verdelingen van 
de beide kenmerken afzonderlijk weergeven en waarvan de theoretische waarden onder de 
nulhypothese al of niet bekend zijn. 


Voorbeeld 18 


We willen onderzoeken of de kleur van het haar en de kleur van de ogen onafhankelijk 
zijn. We nemen daartoe een steekproef van 600 personen. ledere persoon zal nu een 
plaats in een van de rijen krijgen (haarkleur) en een plaats in een van de kolommen 
(kleur van de ogen). De ‘simultane verdeling’ van de steekproef is weergegeven in 


onderstaande tabel. 


haarkleur 


kleurogen blond bruin 


blauw 60 40 
grijs 20 50 
lichtbruin 10 50 
bruin 10 160 
У’ 100 300 


We voeren nu de volgende symbolen in: 


k: aantal rijen 
m: aantal kolommen 


zwart 


60 
20 
10 
10 


100 


rood > 


40 
10 
30 
20 


100 


n,: totaal aantal waarnemingen in de 7-де rij 
nj: totaal aantal waarnemingen in de j-de kolom 


n: totale steekproef grootte 


200 
100 
100 
200 


600 
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Wanneer twee kenmerken X; en Y; onafhankelijk zijn, geldt er: 








Ni Aj 
P(X NYS Р(Х;) · PO = таш en 
8 n(X; NY;) еп} Ni’ Nj 
Anderzijds geldt P(X; N Yj) = ———, dus geldt Eij = п: — ~ = er =, 
n n 
Onder de nulhypothese, dat de twee kenmerken onafhankelijk zijn, vinden we de ver- 
H: H: 
wachte frequenties (E;;) in iedere cel dus als volgt: Ei; = Mat 
| п 
| үн 200 x 100 
Het verwachte aantal іп cel (1,1) 15 bijvoorbeeld: Ер = ———— = 33,3 


Dit uitgevoerd voor alle cellen, levert de volgende tabel, waarbij het verwachte aantal 
van iedere cel tussen haakjes is geplaatst. 


haarkleur 
kleur ogen blond bruin zwart rood 3 
blauw 60 (33,3) 40(100) 60 (33,3) 40 (33,3) 200 
grijs 20 (16.7) 50(50) 20(16,7) 10(16,7) 100 
licht bruin 10(16,7) 50 (50) 10 (16,7) 30(16,7) 100 
bruin 10 (33,3) 160(100) 10 (33,3) 20 (33,3) 200 
F 100 300 100 100 600 


k m (Ou — Es 2 
De toetsingsvariabele х? = SS у-у 
es ij 


==] gel 
chi-kwadraatverdeling met v = (k — 1)(m — 1) vrijheidsgraden. 


volgt onder Но bij benadering een 


De toetsingsprocedure voor de toets voor de afhankelijkheid in een contingentietabel gaat 
nu als volgt. 


1. Bestaat er een afhankelijkheid tussen de haarkleur еп de kleur van de ogen? 
2. Ho: de twee kenmerken zijn onafhankelijk en Hi: de twee kenmerken zijn niet onaf- 
hankelijk 
3. а = 0,05 (altijd eenzijdig). 
k m re: E: 
4. Юе toetsingsvariabele: x? = У) Y 05 — Б, 
i=] j=l ij 


volgt onder Ho een chi-kwadraatverdeli 


met: v = (k — 1)(m — 1) vrijheidsgraden. 
In onderstaande tabel worden alle termen in de somformule berekend: 
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О Еу Оу = Е} саса 
Eij 

60 33,3 26,7 21,41 

A0 100 -60,0 36,00 

60 33,3 26,7 21,41 

40 333 6,7 1,35 

20 167 33 0,65 

50 50 0 0 

20 167 3,3 0,65 

10 16,7 -6,7 2,69 

10 167 -6,7 2,69 

50 50 0 0 

10 167 -6,7 2,69 

30 16,77 13,3 10,59 

10 33,3 233 16,30 

160 100 60,0 36,00 

10 33,3 -23,3 16,30 

an B -133 5,31 

600 600 У 174,04 


Conclusie: с = 174,04 en k = 4 en m = 4, dus: v = (4 – 1)(4—- 1) = 3х3 = 9 
vrijheidsgraden. 

6. De overschrijdingskans van у^ = 174,04 bepalen in de chi-kwadraattabel (B6) bij 
v = 9 levert: P(x? > 174,04) < 0,005. 

7. De overschrijdingskans van х? = 174,04 is veel kleiner dan о = 0,05. Ho wordt 
daarom verworpen ten gunste van А]. 

8. Er blijkt een afhankelijkheid te bestaan tussen de haarkleur еп de kleur van de ogen. 


We kunnen nu nog nagaan waar de afhankelijkheden zijn ontstaan. Daartoe kijken we naar 
de cellen die de hoogste ‘chi-kwadraatbijdrage’ hebben. De cellen (1,1), (1,2) еп (4,2) 
hebben de hoogste bijdrage. Voor cel (1,1) betekent dit dat er meer personen blauwe ogen 
hebben met blond haar dan ‘verwacht’. Deze analyse kunnen we nu ook maken voor de 
andere hoge ‘chi-kwadraatbijdragen’. 


Voorbeeld 19 

Drie verschillende materialen worden blootgesteld aan extreme temperaturen. We gaan 
na of de materialen verkruimelen bij deze blootstellingen. De resultaten zijn weergege- 
ven in de volgende tabel. 
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materiaal 


A ВС PE 


verkruimeld 41 21 22 90 
niet verkruimeld 79 53 78 210 


d, 


120 80 100 300 


De verwachte frequenties zijn: 


Eu 


E 











__ 90x120 = Зб En __ 00х80 __ 24 E13 = 90х 100 = 40 


жа = 200 AS е" 300 
_ 210x120 o _ 210x80 _ 210х100 _ 
= шш. 84 En= 300 e 56 En = Оо 70 








Berekening van de toetsingsvariabele: 


О Eu Оу —Eij 


KE 


э. 
х1 


(О; — Ech? 
Eij 
36 3 0,69 
24 3 0,38 
30 —8 213 
84 —5 0,30 
56 —3 0,16 
70 8 0,91 


у` 4,57 


s Chi-kwadraat-verdeeld met waarde с = 4,57 en met v = (3 – 1)(2 – 1) = 2 


vrijheidsgraden. 


Toetsingsprocedure: 


9.7 


De overschrijdingskans Р(х? > 4,57) zoeken we op in tabel B6 bij v = 2 
vrijheidsgraden. Dit levert: 0,10 < Р(х? > 4,57) < 0,25 

De overschrijdingskans van х? bij een waarde с = 4,57 is dus groter dan а = 0,05. 
Conclusie Ho wordt niet verworpen 

Er is geen reden om aan te nemen, dat de kansen op verkruimeling voor de drie 
materialen, als ze worden blootgesteld aan extreme temperaturen, verschillend zijn. 


Vergelijking van twee of meer frequentieverdelingen 


Tot slot zullen we de chi-kwadraattoets toepassen op het geval, dat we twee of meer steek- 


proeven hebben en we willen toetsen of deze steekproeven afkomstig zijn uit eenzelfde 
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populatie. Deze toets gebruiken we als de waarnemingsuitkomsten niet (bij benadering) 
normaal verdeeld zijn of in die gevallen waar de verdeling onbekend is. 

De toetsingsvariabele is bij deze toets volkomen analoog aan die, welke besproken is in de 
vorige paragraaf. De interpretatie is echter verschillend en de berekening van de verwachte 
frequenties verloopt anders. 

Stel we hebben k steekproeven met respectievelijk een omvang van n1, n2,.., nx stuks. Voor 
elk van de k steekproeven zijn de waarnemingsuitkomsten O;; gegroepeerd in m klassen. 


steekproef- klasse steekproef- 
nummer 1 m grootte 
l О... Оп n] 
2 Oort … Oom п? 
К Oi ome Ори пк 
En О} ыг Kie n 


We stellen nu de volgende nulhypothese: 

Ho: De k steekproeven zijn afkomstig uit dezelfde populatie. 

Als alternatieve hypothese geldt: 

Hi: De k steekproeven zijn afkomstig uit verschillende populaties. 

De kans dat een waarnemingsuitkomst, onder de nulhypothese, in klasse j valt, moet uit de 
waarnemingsuitkomsten worden geschat. We vinden: 


zodat de verwachte frequentie van klasse j in steekproef i (= cel (i, /)) wordt geschat door: 
П; » О; 
Eij = 


waarin: 





n 


ni = тї] totaal van de i-rij, dus de grootte van de steekproef i 
О; = kolomtotaal van de j-de kolom. 
3 d, 
De toetsingsvariabele wordt weer: x° = e 5 со аси 
i=l j=l Eij 
waarbij х2, onder de nulhypothese, ееп chi-kwadraatverdeling volgt met (k — 1)(m — 1) 
vrijheidsgraden. 
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Voorbeeld 20 
Een bandenfirma wil van 4 verschillende typen banden de duurzaamheid nagaan. Меп 
doet een rijtest en bepaalt na hoeveel kilometers de banden zijn versleten. De uitkomsten 


zijn: 
aantal kilometers (in duizendtallen) 
type <30.000 30.000-45.000 45.000 totaal 
А 26 118 56 200 
В 23 93 84 200 
C 15 116 69 200 
р 32 121 47 200 
totaal 96 448 256 800 


De verwachte frequenties Е;; zijn: 

6x20 
En = Ez = Езу = Ед = 25290 = 24 
En = En = Ez = Ep = 0 — 112 


256-20 
Е\з = En = E33 = Едз = 2970 = 64 





De toetsingsprocedure verloopt als volgt. 


L; 
2. 


Is er verschil in duurzaamheid tussen de bandentypen А, В, С en р? 
Ho: Er is geen verschil in duurzaamheid tussen de 4 typen A, B, С en D (de steekproe- 
ven komen feitelijk uit eenzelfde populatie) en Hı: Er zijn verschillen in duurzaamheid 
tussen de 4 typen A, В, Сеп D. 
a = 0,05 (eenzijdig). 
De toetsingsvariabele is de Chi-kwadraat-verdeelde variabele x° met waarde 

k a (О Ец) 


e E 


i=l j=l 


Berekening van c gaat als volgt (zie de volgende tabel). 


3. 


De overschrijdingskans van de toetsingsvariabele х2 bij een waarde с = 22,79 opzoe- 
ken in tabel B6 bij v = (k — 1)(m — 1) = (3 — 1)(4 — 1) = 6 vrijheidsgraden levert 
Р(х? > 22,79) < 0,005. 

De overschrijdingskans van y? is kleiner dan œ = 0,05. Conclusie: Ho wordt verwor- 
pen ten gunste van Hi 

Op grond van de gehouden steekproef kunnen we concluderen dat er een verschil in 
duurzaamheid is tussen de 4 bandentypen. De verschillen vinden we door te kijken 
naar de cellen met de hoogste chi-kwadraatbijdragen. Zo heeft cel (2,3) een signifi- 
cante afwijking. De frequentie is hoger dan wat men theoretisch kan verwachten. De 
afwijking is positief. Conclusie is dat de banden van type B langer meegaan. Ook cel 
(4,3) heeft een grote chi-kwadraatbijdrage, maar de afwijking is negatief. De banden 
van type D gaan dus korter mee. 











Het toetsen van hypothesen hoofdstuk 9 211 





cel Oi; Eij Oi; = Eij ш Zij) 
Eo 
11 26 24 2 0,17 
12 118 112 6 0,32 
13 56 64 —8 1,00 
21 23 24 — | 0,01 
22 93 112 —19 3.22 
23 84 64 20 6:25 
3] 15 24 —9 3,38 
32 116 112 4 0,14 
33 69 64 5 0,39 
Al 32 24 8 261 
42 121 112 9 0,72 
43 47 64 — 17 4,52 
У) 800 800 22,79 
9.8 Het toetsen van uitschieters 


We besluiten met twee toetsen waarbij we de tot dusver gebruikte kansverdelingen niet meer 
kunnen gebruiken. 


9.8.1 Het verwerken en toetsen van verdachte uitkomsten 

Het komt nogal eens voor dat men in een reeks meetuitkomsten één of meer waarden aan- 

treft, die veel afwijken van de overige waarden. De vraag wordt dan gesteld wat met deze 

verdachte waarden moet of mag worden gedaan. De verdachte waarde weglaten, handhaven 

of vervangen door een nieuwe meetuitkomst? 

Veel onderzoekers hebben de slechte gewoonte om verdachte waarden zonder meer weg 

te laten of te vervangen. Dit ‘zonder-meer-weglaten’ is alleen dan toegestaan als men ееп 

bewijs in handen heeft dat de afwijkende waarde het gevolg is van een technische fout. 

We spreken van een technische fout als de afwijking is ontstaan door oorzaken die niets met 

het onderzochte materiaal te maken hebben, zoals: 

— fouten bij behandeling of bewaring van de monsters; 

— fouten bij het voorbereiden van de metingen; 

— technische afwijkingen tijdens de metingen; 

— fouten bij de verwerking van de meetuitkomsten, afleesfouten, reken- of typefouten, 
enzovoorts. 
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Als bewijs voor een technische fout geldt bijvoorbeeld dat men gezien moet hebben dat 
er tijdens de meting iets misging, of dat aangetoond kan worden dat er een rekenfout is 
gemaakt, dat een punt van een kromme verkeerd is afgelezen, of dat er ‘onmogelijke’ uit- 
komsten zijn verkregen. 
Vermoedens, achteraf door onderlinge vergelijking van meetuitkomsten, dat ‘er ergens wel 
wat fout zal zijn gegaan’, hebben geen enkele bewijskracht. Heeft men geen bewijs van 
een technische fout, dan kan men door toetsing nagaan of de verdachte uitkomst statistisch 
gezien een uitschieter of uitbijter is of niet. 
Bij verdachte waarden kunnen we de volgende situaties onderscheiden. 
a. Technische fouten 
Bij gemaakte rekenfouten of aflezingen van diagrammen, is het meestal wel mogelijk 
de gemaakte fouten te corrigeren. Als er geen correctie mogelijk is, worden de foute 
waarden weggelaten. Als hierdoor het aantal overblijvende uitkomsten te gering wordt, 
dan kunnen we de geschrapte waarden vervangen door uitkomsten van nieuwe metin- 
gen. 
Het toetsen of een afwijkende waarde een uitschieter is, komt neer op het berekenen 
van de overschrijdingskans P voor deze waarde. 


overschrijdingskans conclusie 


P = ТФ storende uitschieter 
Lz Р < 5% uitschieter 
F zs 5% geen uitschieter 


b. Storende uitschieters (P < 19%) 
De storende uitschieters worden bij berekening van gemiddelden, spreidingen, enzo- 
voorts niet meegerekend. Echter bij elke publicatie (onderzoekbriefjes, proef verslagen, 
enzovoorts) moet uitdrukkelijk worden vermeld, dat men één of meer uitschieters bij 
de berekeningen heeft weggelaten (ook de waarden vermelden). 
с. Uitschieters (1 < P < 5%) 
Deze uitschieters worden wel in de berekeningen meegenomen. Bij elke vorm van 
publicatie moet uitdrukkelijk worden vermeld dat uitschieters (ter grootte van …) zijn 
meegerekend. 
d. Geen uitschieters (Р > 5%) 
Is een verdachte uitkomst geen uitschieter — dus P > 5% — dan wordt de waarde 
gewoon in alle berekeningen opgenomen, zonder speciale vermelding. 
e. Aanvullende metingen 
Afwijkende waarden met een overschrijdingskans 1 < Р < 5% mogen dus niet bij 
de berekeningen worden weggelaten. Vooral in kleine steekproeven kunnen deze af- 
wijkende waarden een sterke invloed uitoefenen op het gemiddelde en de standaardaf- 
wijking. Om deze invloed wat te verminderen, is het raadzaam een reeks aanvullende 
metingen uit te voeren. De oorspronkelijke en de aanvullende meetuitkomsten worden 
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dan samengevoegd voor verdere verwerking. Indien gewenst, kan теп na samenvoe- 
ging opnieuw de uitschieters toetsen. Het kan zijn dat de verdachte uitkomst nu wel 
een overschrijdingskans P < 1% heeft en dus in verdere berekeningen mag worden 
weggelaten. 


9.8.2 De toets van Grubbs 

Met deze toets, ontwikkeld door Frank Grubbs, kunnen we nagaan of verdacht hoge of 
verdacht lage waarden in een reeks meetuitkomsten of in een reeks gemiddelden, statistisch 
gezien, echte uitschieters zijn. 

Procedure 

Bij de toets van Grubbs wordt verondersteld dat de meetwaarden afkomstig zijn uit een 
normaal verdeelde populatie. De meetuitkomsten worden gerangschikt in volgorde van 
grootte, waarna de waarde van de toetsingsvariabele T (niet te verwarren met T uit de t- 
verdeling!) als volgt wordt bepaald: 

a. voor een verdacht grote waarde: 


__ Х(п) = Х 


met: 

X(n) = hoogste meetwaarde 

х = gemiddelde van alle meetwaarden 

5 = standaardafwijking van alle meetwaarden 
b. vooreen verdacht kleine waarde: 

"= X — X(1) 
5 

met: 
ui = laagste meetwaarde 
In beide gevallen wordt de overschrijdingskans van de toetsingsvariabele opgezocht in 
een tabel, afhankelijk van het aantal meetwaarden л. 


Voorbeeld 21 
Bij een onderzoek zijn de volgende 6 uitkomsten verkregen: 127 118 125 127 127 128. 
De onderzoeker vindt de waarde 118 verdacht klein en wil dit toetsen. 


Oplossing 
De 6 meetwaarden worden gerangschikt in volgorde van grootte en vervolgens wordt het 
gemiddelde en de standaardafwijking bepaald. 


118 125 126 127 127 128 
ха) AQ) Хз) An AS) AO) 
X == 145,1667 enge = 3,656 
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De toetsingsvariabele heeft een waarde: 


X — Х(1) __ 125,1667—118 

Ё == 0—5 a = 1,96 
sx 3,656 

In de tabel voor de toets van Grubbs (tabel B 10) wordt de overschrijdingskans van Т bij 

een waarde т = 1,96 opgezocht bij n = 6. 

Dit levert: P(T > 1,96) < 0,01 


Conclusie: de uitkomst 118 is een storende uitschieter (niet meerekenen, wel noemen). 


Voorbeeld 22 
Van een serie van 10 meetwaarden zijn de volgende uitkomsten verkregen: 


10,3 10,5 10,6 10,6 10,9 10,9 11,3 [153 11,8 13,2 


Is 13,2 een uitschieter”? 


Oplossing 
We berekenen eerst x en s van de 10 uitkomsten: x = 11,15 en s = 0,859. 

Omdat 13,2 een ‘verdacht’ hoge waarde is, berekenen we de waarde van de toetsingsva- 
riabele T als volgt: 

dag X(n) — A 


_ 132-239 __ 
0855 = 2,39. 


5 
In tabel B8 vinden we bij п = 6 de overschrijdingskans van T bij t = 2,39. 

Dit levert: 0,01 < P(T > 3,39) < 0,025. 

Conclusie: de waarde 13,2 is een uitschieter, maar geen storende uitschieter (wel noe- 


men, niet meerekenen). 


9.8.3 De toets van Cochran (voor verdacht grote varianties) 

Met deze toets kunnen we nagaan of een verdacht grote variantie (ez, ) in een groep van k 
varianties een echte uitschieter is of niet. 

Voorwaarde voor het gebruik van deze toets is dat de k steekproeven, waarvan de varianties 
berekend worden, even groot zijn en afkomstig zijn uit (bij benadering) normaal verdeelde 
populaties. De toetsingsvariabele voor de toets van Cochran is T met waarde: 


2 
Smax 


k 
2. 5; 


Ges 


d == 


N 


k = aantal varianties, inclusief de verdachte variantie 
v = aantal vrijheidsgraden van elk der k varianties. 
De toets demonstreren we aan de hand van het volgende voorbeeld. 
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Voorbeeld 23 
In een onderzoek zijn 5 spoelen garen betrokken. Aan elke spoel worden 10 metingen 
gedaan. Behalve het gemiddelde van elke spoel wordt ook de variantie berekend. De 


vijf variantieszijn: 52 = 26 52 = 40 52 = 83 52 = 24 52 = 28. 


De variantie van spoel 3 (5 = 83) vindt men verdacht groot in vergelijking met de 
andere vier varianties. De verdacht grote variantie wordt onderzocht met behulp van de 
toets van Cochran. 
Voor de toetsingsvariabele T vinden we een waarde: 

= 83 


= —————— — 0,413 met: k = 5en v = 10 – 1 = 9. 
k 26 + 40 + 83 + 24 + 28 





i=] 
De overschrijdingskans van T = 0,413, wordt bepaald met behulp van de kritieke waar- 


den voor Т uit tabel B11. Voor k = 5 en v = 9 vinden we: 

@ = 3%: Ко,05 = 0,424. 

@ = 1%: Enn = 0,485. 

Vergelijken we de waarde van toetsingsvariabele T (= 0,413) met de beide kritieke 
waarden Ао 05 = 0,424 en коо = 0,485, dan blijkt dat de overschrijdingskans bij t = 
0,413 groter is dan 5%. 

Hieruit moeten we concluderen dat de verdachte variantie S = 83 net geen uitschieter 
iS. 


Opmerking 

Voor gelijkblijvende waarden van de overige 4 varianties, zal S pas een significante 
uitschieter zijn als 52 > 87. Immers, bij een overschrijdingskans van 5% behoort een 
kritieke waarde van 0,424. Hierbij kan nu de kritieke waarde van de toetsingsvariabele 
(=87) worden berekend. 


Opgaven 


Een kledingmagazijn verkoopt kostuums van maat 51, waarvan de fabrikant als norm 
heeft opgegeven voor de lengte van de broek 112 cm, met o = 2 cm. 

Men bemerkt echter dat de broeken vaak te kort zijn, wat tot het vermoeden leidt dat de 
lengte van de broeken systematisch te kort is. 

In het kledingmagazijn besluit men tien pantalons van maat 51 willekeurig aan een 
partij te onttrekken en na te meten. Men krijgt de volgende gegevens (in cm): 


110 108 113 112 109 107 108 112 113 110 


Zijn de broeken van maat 51 tekort (toets met о = 0,05)? 
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Volgens de fabrikant van een nieuw type personenauto verbruikt deze auto bij een con- 
stante snelheid van 90 km/uur gemiddeld 7,1 liter benzine per 100 gereden kilometers. 
Door een consumentenorganisatie werd van 10 van zulke auto’s het benzineverbruik 
gemeten. Men vond (in liters рег 100 Кт): 


Тә I0 Ча Al TA 7e fo GR ла ча 


Toets met een onbetrouwbaarheid 0,05, de hypothese dat de bewering van de fabrikant 
juist is, onder de aanname dat het benzineverbruik іп liters per 100 km normaal verdeeld 
IS. 


Men wil twee merken kooktoestellen met elkaar vergelijken. De kwaliteit van een 
kooktoestel wordt onder meer bepaald door het warmterendement, dat wil zeggen de 
verhouding tussen de benutte en de vrijgekomen warmte. Men heeft van de merken A 
en B een aantal toestellen getest en de volgende rendementen (in %) gevonden. Van 
merk A hebben we slechts 5 metingen doordat 1 meting is uitgevallen. 


A: 59 55 61 58 60 


B: 63 64 59 60 65 60 


Bestaan er verschillen in rendement tussen de merken А en B (toets met о = 0,05)? 


Tijdens een chemisch proces wordt een bepaalde hoeveelheid grondstof omgezet in een 
hoeveelheid eindproduct. Bij een volledige chemische omzetting spreken we van een 
chemisch rendement van 100%. In de praktijk wordt dat evenwel nooit bereikt, doch 
men wil het zo hoog mogelijk opvoeren. Er zijn nu twee apparaten met verschillende 
constructies. Men wil onderzoeken of dit verschil in constructie invloed heeft op het 
rendement. Men maakt gedurende acht dagen, per dag een charge grondstof aan en 
verdeelt die in twee porties. Eén portie wordt op apparaat A gedraaid en de andere 
portie op apparaat B, vervolgens wordt het rendement voor beide apparaten bepaald. 


dag A B 
| 89,3 92,6 
2 87,5 90,3 
3 914 91,2 
4 88,1 92,6 
5 88,2 85,8 
6 91,7 95,8 
7 83,7 82,6 
8 87,3 91,6 


Bestaat er een verschil in rendement tussen de beide apparaten? (toets met о = 0,05) 
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Een meetmethode wordt door twee analisten uitgevoerd. Beide analisten verrichten 10 
metingen aan eenzelfde standaardmonster. Van beide meetseries wordt de standaardaf- 
wijking bepaald: 

Sa = 1,44 mm еп sg = 2,87 mm 

Bestaat er een verschil in meetnauwkeurigheid tussen de beide analisten? (toets met 
@ же 0,05) 


Bij de bepaling van de viscositeit van een hars zijn de volgende waarden verkregen: 
1,20 128 1,30 145 125 1,23 1,29 1,30 1,28 117 1,10 


Ga na of bij bovenstaande uitkomsten storende uitschieters zitten. 


Van 6 steekproeven die ieder bestaan uit 4 waarnemingen, heeft men de variantie be- 
paald. 


De varianties zijn: 22,8 25,0 30,4 27,9 79,2 33,1 


Ga na of 79,2 een storende uitschieter is. 


Men beschikt over de volgende steekproefresultaten: 


steekproeven 
A B С D E 


dech A 247 AB Jt 
Му Jt Al AA AS 
д0 A4 23 39 49 
a0 33 29 39 29 
2,9 ж L Mi 39 


Bereken de variantie van de steekproeven en toets of er een te grote variantie bij is. Zo 
ja, waardoor kan die zijn ontstaan? 


Een product wordt geproduceerd in een reactieketel, door drie grondstoffen met elkaar 
te laten reageren, onder invloed van een bepaalde hoeveelheid van katalysator. Een 
belangrijk criterium voor het eindproduct is het gehalte aan een bepaalde stof. Uit 
onderzoek bleek dat het gehalte aan desbetreffende stof in het eindproduct afhankelijk 
kan zijn van de hoeveelheid katalysator. Men doet nu een proef om te zien of een 
verhoging van 3 naar 6 gram katalysator, ook een verhoging van de bepaalde stof in het 
eindproduct geeft. Bij beide hoeveelheden 15 с = 2. Men toetst daarbij de volgende 
hypothesen: 

Nulhypothese u = 3,5 tegen de alternatieve hypothese u = 6,75 procent van de stof in 
het eindproduct. 

De te gebruiken toetsingsvariabele is het gemiddelde van een steekproef van vier waar- 
nemingen. 
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a. Veronderstel dat Ho waar is, specificeer de kansverdeling van de toetsingsvariabele 
Ba 

b. Bepaal, onder de voorwaarde dat Ho waar is, de kans dat T > 5,46. 

с. Veronderstel dat Hı waar 15, specificeer dan de verdeling van Т. 

d. Bepaal in geval с de kans dat T > 5,46. 

De nulhypothese wordt verworpen bij T > 5,46. 

Hoe wordt de waarde T = 5,46 genoemd? 

Hoe wordt het gebied T > 5,46 genoemd, indien Ho waar is? 

Hoe groot is de onbetrouwbaarheid van de toets? 

Hoe groot is het onderscheidingsvermogen van de toets? 


5 qa го 


Een firma in lijmsoorten wil het effect van een reclamecampagne nagaan ten aanzien 
van de naamsbekendheid van zijn lijm ‘Beverkracht’ in vergelijking met het concurren- 
tieproduct ‘Bisonkracht’. De firma laat een onderzoek verrichten door een onderzoeks- 
bureau, twee weken voor de campagne en twee weken na de campagne. 


merk voor campagne па campagne 
Beverkracht 335 486 
Bisonkracht 565 515 


Toets of er een effect bestaat door de reclamecampagne ten aanzien van de naamsbe- 
kendheid. (Toets met о = 0,05.) 


Bij een proef omtrent het afdichten van plastic bakjes worden 3 verschillende afdich- 
tingmethoden А, B еп С met elkaar vergeleken. De afdichting wordt gecontroleerd 
door gevulde en gesloten bakjes, na sterilisatie, gedurende een zekere tijd op te slaan 
in met pathogene bacteriën besmet water. Daarna wordt de inhoud van elk bakje ge- 
controleerd op de aanwezigheid van deze bacteriën. De uitslag van het onderzoek is als 
volgt: 


айй steekpr. percentage 
grootte besmette bakjes 
А Zë 13,3% 
B 90 15,5% 
E 195 11,3% 


Bestaat er een verschil tussen de drie afdichtingmethoden? (Toets met o = 0,05.) 


Een fabrikant van computerchips garandeert dat deze bij normaal gebruik een gemid- 
delde levensduur hebben van meer dan 8000 bedrijfsuren. Van 20 van zulke chips is de 
levensduur bepaald. 

Voor het gemiddelde vond men 8300 uur en voor de standaardafwijking 1000 uur. 
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16. 





Wanneer we veronderstellen dat de levensduur van chips normaal verdeeld 15, kunnen 
we dan de conclusie trekken dat de garantie van de fabrikant juist is? (toets meta = 
0,05) 


In een enquête onder het personeel van een groot bedrijf werd in vraag 17 verzocht een 
oordeel te geven over de werkomstandigheden op de afdeling waar zij werkzaam zijn. 
Van de in totaal 539 medewerkers van de afdelingen X, Y en Z hebben er precies 500 
aan de enquête meegedaan. Hun reactie op vraag 17 kan als volgt worden samengevat: 


oordeel werkomstandigheden 
afdeling ontevreden matig tevreden 


X 36 56 121 
Y 32 44 61 
Z 48 55 47 


Onderzoek of de mate van tevredenheid over de werkomstandigheden afhankelijk is 
van de afdeling waarop men werkt. Kies een onbetrouwbaarheid œ = 0,05. 


Volgens de Kwaliteitsdienst van de N.V. Tarwex mag het gemiddelde nettogewicht van 
een pak tarwevlokken niet minder dan 500 gram bedragen. Aangenomen mag worden 
dat het bedoelde gewicht bij benadering normaal verdeeld is met een standaardafwij- 
king o = 28 gram. Bij een controle leverde een steekproef van 16 pakken een gemid- 
deld gewicht уап 485 gram op. Kan er behoudens een onbetrouwbaarheid œ = 0,05 
geconcludeerd worden dat de machine waarop de pakken tarwevlokken worden gevuld, 
moet worden bijgesteld? 


In een staalfabriek kan volgens twee methoden, methode A en methode B, betonstaal 
gewalst worden. Uit ervaring weet men dat de treksterkte van betonstaal normaal ver- 
deeld is, voor methode A met een standaardafwijking van 1200 N en voor methode 
B met een standaardafwijking van 1600 N. De gemiddelde treksterkte was voor een 
steekproef van 12 stukken betonstaal, gewalst volgens methode A, gelijk aan 60000 N 
en voor een steekproef van 15 stukken betonstaal, gewalst volgens methode B, gelijk 
aan 59000N. 

Volgt hieruit dat betonstaal, gewalst volgens methode A niet dezelfde gemiddelde trek- 
sterkte heeft als betonstaal, gewalst volgens methode B? Kies a = 0,05. 


Een bepaald kwantitatief kenmerk van een bepaald product heeft een standaardafwij- 
king van 20. Na een inmiddels opgeheven storing in het productieproces bleek de 
bedoelde eigenschap in een steekproef van 16 stuks een standaardafwijking 24 te heb- 
ben. 

Moet hieruit met onbetrouwbaarheid 0,05 geconcludeerd worden dat de processprei- 
ding na de storing groter is geworden? 
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17. In een supermarkt krijgen de klanten de gelegenheid om twee verschillende merken 
soep te proeven. Van een groep van 100 klanten vonden er 63 de soep van merk A 
lekkerder dan de soep van merk B. Toets met о = 0,10 de hypothese Ho dat geen 
voorkeur voor een van de twee merken soep bestaat tegen de alternatieve hypothese 

H; dat de voorkeur voor merk A groter is dan die voor merk B. 








Lineaire regressie en 
correlatierekening 





10.1 Inleiding 


Regressie-analyse is een methode waarmee we kunnen onderzoeken of er tussen twee (of 
meer) kansvariabelen een bepaald verband bestaat. Bestaat er een verband tussen het li- 
chaamsgewicht en de lichaamslengte van een bepaalde groep mensen? Is er een relatie tus- 
sen de prijs van en de vraag naar een zeker product? Is de opbrengst van een bepaalde akker 
afhankelijk van de gebruikte hoeveelheid kunstmest en/of de zuurgraad van de grond? Is de 
druk afhankelijk van het volume en/of de temperatuur? Is de stroomsterkte in een bepaald 
netwerk gerelateerd aan de ingestelde spanning? Op dit soort vragen kan een antwoord 
worden gevonden via de methode van de regressie-analyse. Met deze methode kunnen we 
nagaan óf er een verband bestaat tussen twee (of meer) kansvariabelen. Want ook kan — 
indien er inderdaad een verband blijkt te bestaan — worden vastgesteld op welke wijze dit 
verband in een formule kan worden vastgelegd. Dit is minder eenvoudig dan op het eerste 
gezicht lijkt. In het algemeen zullen de meetpunten die bij de analyse gebruikt worden niet 
allemaal op de grafiek van de te zoeken functie liggen. Dit komt niet alleen door meetfouten 
maar ook door het toevalskarakter van de meetpunten. Er is dan ook geen eenduidig ant- 
woord te geven op de vraag welke functie het verband tussen de variabelen exact weergeeft. 
Op basis van een bepaald criterium kan wel een functie gevonden worden die het verband 
tussen de variabelen het beste weergeeft. Het meest gebruikte criterium is het zogenaamde 
kleinste-kwadraten-criterium. In dit hoofdstuk zullen we in eerste instantie bekijken hoe de 
hiermee de formule kan worden gevonden die een lineair verband tussen twee variabelen X 
en Y weergeeft. We zullen echter ook ingaan op de vraag hoe met het kleinste-kwadraten- 
criterium een benadering kan worden gevonden voor een niet-lineair verband. Deze vorm 
van regressie-analyse noemt men vaak curve-fitting. 

Naast de regressie-analyse kennen we ook de correlatierekening. Hiermee kan de mate van 
afhankelijkheid tussen twee (of meer) variabelen worden vastgesteld. Zo blijken bijvoor- 
beeld de eindexamencijfers voor de vakken wiskunde en natuurkunde vaak sterk gecorre- 
leerd te zijn, maar de cijfers voor wiskunde en engels veel minder. Voor zover het de mate 
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van correlatie tussen twee kansvariabelen met een lineaire regressie betreft, worden in dit 
hoofdstuk de begrippen correlatiecoëfficiënt en covariantie ingevoerd. 


10.2 De methode van de kleinste kwadraten 


Stel dat we willen onderzoeken of er een bepaald verband bestaat tussen de variabelen X 
en Y die we beide kunnen meten aan elk van de n elementen van een bepaalde verzameling 
(denk hierbij bijvoorbeeld aan de meting van lengte en gewicht van een groep volwassenen). 
Om een eerste indruk te krijgen of er al dan niet een verband bestaat, kunnen we — zie figuur 
10.1 — de n meetpunten (xj, у;) (1 = 1, 2, 3, ..., n) tegen elkaar uitzetten in een punten- of 
scatterdiagram. 


y 1,6 


1,4 


‚pe 





0 50 100 150 200 250 300 350 


X 


Fig. 10.1 Puntendiagram van een reeks van 8 meetpunten 


Op het eerste gezicht blijkt voor de 8 meetpunten van figuur 10.1 het verband tussen X 
en Y min of meer lineair te zijn. Om hierin meer inzicht te krijgen, zouden we door de 
puntenwolk een rechte lijn kunnen trekken op een zodanige wijze dat elk van de 8 punten 
er zo dicht mogelijk bij ligt. De vraag is echter op welke wijze dit gerealiseerd kan worden. 
Wanneer we de vergelijking van de bedoelde rechte lijn formuleren als: 


ys pu)saxrtb ` (10.1) 


(Ӯ 15 het symbool dat hier gebruikt wordt voor de benadering van y), blijkt het mogelijk 
een waarde voor de richtingscoëfficiënt a en het intercept b te berekenen met behulp van 
de methode van de kleinste kwadraten. Om duidelijk te maken wat deze methode inhoudt, 
verwijzen we naar fig. 10.2. 
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у =ах+Ь 


0 50 100 150 200 250 300 350 


= x 


Fig. 10.2 De residuen r; van de 8 meetpunten van figuur 10.1 


Voor elk punt (x;, y;) uit de puntenwolk van figuur 10.1 definiëren we het residu r; (ook 
wel fout of afwijking genoemd) als het verschil tussen de gemeten waarde y; en de door 


toepassing уап de vergelijking у = р(х) = ax +b verkregen waarde у; = р(х;) = ах; +b. 
Er geldt dan: 
ri = yi У = yi р(х) = Yi — axi — b (10.2) 
Opmerking 


Voor elk punt (x;, yi) is het residu r; te beschouwen als de fout in de gemeten waarde у; 
van У ten opzichte van de lijn у = р(х) = ах +b. Hierbij wordt verondersteld dat x; een 
onafhankelijk gekozen of ingestelde waarde van X vertegenwoordigt. Daarom noemen 
we Y de (van X) afhankelijke variabele en X de (van Y) onafhankelijke variabele. 

We zullen veronderstellen dat de r; voor elke i normaal verdeeld zijn met gemiddelde 
0 (en met standaardafwijking о, waarover later meer). Met r; = у; — p(x;) geldt dat 
E(ri) = Е(у;) — Е(р(х;)) = E(yi) — p(xi) = 0. We kunnen dus stellen dat E (у;) = 
р(х). De waarde p(x;) = ах; + b is te beschouwen als de ‘meest waarschijnlijke’ 
meetwaarde van Y bij de instelwaarde X = xi. 


De rechte lijn = ax + b, die de eigenschap bezit dat de som van de kwadraten van alle 
residuen r; zo klein mogelijk is, noemen we de regressielijn van Y op X. 

De methode van de kleinste kwadraten eist dus dat we a en b zodanig kiezen, dat de som 
van de kwadraten уап de n residuen r; (i = 1, 2, 3, …, n) minimaal is. 
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Opmerking 

De methode van de kleinste kwadraten is niet de enige methode om een regressielijn te 
bepalen. We kunnen aan de regressielijn bijvoorbeeld ook de eis stellen dat de som van 
de absolute waarden van de п residuen zo klein mogelijk is of dat de grootste van de п 
residuen (in absolute waarde) zo klein mogelijk is. Deze methoden hebben echter zowel 
praktische als wiskundige bezwaren. Daarom zullen we er in het kader van dit boek niet 
verder op ingaan. 


T ан И аР Af 
Om f(a, Б) = ON гг te kunnen minimaliseren, moeten we de partiële afgeleiden Em en ab 
a 


i=] 
beide gelijk aan О stellen. Doen we dit, dan volgt hieruit een stelsel van twee vergelijkingen 
en twee onbekenden: 


п 
) у (10.3) 
[==] 


У Gm (10.4) 
Lesl 


a УД) + bn 
il 


ad) LEX Gei 
1 i=l 


Met x als het gemiddelde van alle x-coördinaten en y als gemiddelde van alle y-coördinaten 
is de oplossing van dit stelsel: 


b = ýy — ax (10.5) 
ën: 
E Giy) — ADG) 
“ан = ge (10.6) 
NC e = аа 
Gesi 
Opmerking 


Voor de laatste formule kan ook geschreven worden 


Mi — ¥) (yi — У) 


PP —_ ЧӘЧЕБШИНЫНННШЕ (10.7) 


п 


(х = х)? 


t=] 
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Voorbeeld 1 


Voor een groep van 6 personen zijn de volgende lichaamslengten en lichaamsgewichten 
gegeven: 
persoon (1) ] 2 3 4 5 6 


lengte in cm (x;) 164 174 176 180 184 190 
gewicht in kg (уг) 54 60 65 71 76 Si 


We bepalen met behulp van de methode van de kleinste kwadraten de regressiecoëfficiënt 
a en het intercept b voor de lineaire regressie van Y op X. 

Ten behoeve van de berekening van de regressiecoëfficiënt met behulp van formule 
(10.4) maken we eerst de volgende berekening: 


nummer Xi Yi Xi Xi Vi 
1 164 54 26896 8856 
2 174 60 30276 10440 
3 176 65 30976 11440 
4 180 71 32400 12780 
5 184 76 33856 13984 
6 190 82 36100 15580 


totaal 1068 408 190504 73080 


_ 1068 _ 408 
Metn = 6 vinden we: х = Е = TiS ей У == „= 68. 
73080 — 6(178)(68 456 
Formule (10.6) levert dan op: a = ен аңы е = 1,14. 


190504 — 6(178)2 400 
Meta = 1,14, х = 178 еп у = 68 vinden we ten slotte met behulp van formule (10.5): 
b = 68 — 1,14(178) = —134,92. 
De gevraagde regressievergelijking luidt dus: у = 1,14x — 134,92. 


Opmerking 

De in voorbeeld 1 berekende regressielijn is slechts gebaseerd op een beperkt aantal 
meetpunten (6) binnen een beperkt gebied van de instelvariabele X (164 t/m 190 cm). 
Daarom zou het onjuist zijn de regressielijn te gebruiken om voor elke willekeurige 
persoon het lichaamsgewicht te berekenen op basis van een gegeven lichaamslengte. 


Opdracht 


Controleer de juistheid van de bovenstaande opmerking voor de eigen situatie alsmede voor 


een kind met een lichaamslengte van 100 cm. 
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Fig. 10.3 Puntenwolk en regressielijn bij voorbeeld 1 


In feite kan men de in voorbeeld 1 berekende regressielijn y = 1,14x — 134,92 slechts 
gebruiken voor de berekening van een schatting van het gemiddelde lichaamsgewicht van 
personen met een lichaamslengte tussen 164 en 190 cm. En dan nog met de grootst mo- 
gelijke voorzichtigheid, want uiteindelijk is deze schatting op slechts 6 waarnemingsparen 
gebaseerd. 


10.3 De tweede regressielijn 


In voorbeeld 1 hebben we voor de instelvariabele X de lichaamslengte en voor de meet- 
waarde Y het lichaamsgewicht van 6 personen gekozen. De aldus berekende regressielijn 
У = 1,14x — 134,92 kan, met de nodige voorzichtigheid, gebruikt worden om voor alle per- 
sonen met een lichaamslengte x; tussen 164 en 190 cm (het instelgebied van de variabele X) 
een schatting te berekenen van het gemiddelde lichaamsgewicht uy. Wensen we het omge- 
keerde te doen, dus wensen we voor alle personen met een lichaamsgewicht y; tussen 54 en 
82 kg (het meetgebied van de variabele Y) een schatting £ te berekenen van de gemiddelde 
lichaamslengte их dan mag hiervoor de regressielijn у = 1,14x — 134,92 niet gebruikt 
worden. In dat geval moeten we de zogenaamde tweede regressielijn gebruiken, die van de 
vorm Х = q (y) = cy + d is en die dus voor de meetwaarden х; van X (de lichaamslengte) 
vastlegt hoe deze afhangen van de instelwaarden y; van Y (het lichaamsgewicht). 

Met rolverwisseling van X en Y kan de vergelijking van de tweede regressielijn uit de 
formules (10.5) en (10.6) bepaald worden. Wanneer we deze vergelijking aanduiden met 
x = (у) = су + d, ontstaan de formules: 


dE сӯ (10.8) 
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еп 
п _ _ 
> Oixi) — п(ў)(Х) 
g= E (10.9) 
Di)? —n(y)? 
i=] 
Voorbeeld 2 


Bepaal de vergelijking van de tweede regressielijn voor de 6 meetpunten, waarvan in 
voorbeeld 1 de vergelijking van de eerste regressielijn is bepaald. 


Oplossing 
n 
Met 3 (ух) = 73080, х = 68 (zie voorbeeld 1) en met 
i=] 
n 
S` (yi)? = 542 + 602 + 652 + 712 + 762 + 822 = 28282 


i=] 
vinden we volgens formule (10.9): 
‚_ 73080 — 6(68) (178) Е 456 _ 0.85 
28282 — 6(68)2 538 
Met behulp van formule (10.8) vinden we dan: d = 178 — 0,85(68) = 120,20 


zodat de vergelijking van de tweede regressielijn luidt: £ = 0,85y + 120,20. 


Opdracht 

Bereken voor de groep waaruit de 6 personen van voorbeeld 2 afkomstig zijn een schatting 
van de gemiddelde lichaamslengte van alle personen die een lichaamsgewicht hebben van 
67 kg. 


De figuren 10.4a en 10.4b laten duidelijk het onderscheid zien tussen de beide soorten re- 
gressielijnen. 

Uit deze figuren blijkt dat de lijn у = ax + b in het algemeen een andere is dan de lijn 
Хх = cy+d. Alleen wanneer alle r; (i = 1, 2, 3, ..., n) gelijk aan 0 zijn vallen de beide lijnen 
samen. Alle meetpunten liggen dan op de eerste én de tweede regressielijn. De vergelijking 
van de eerste regressielijn is dan om te schrijven naar die van de tweede regressielijn en 


omgekeerd. 


Opmerking 

a. Het punt met x-coördinaat x en y-coördinaat y ligt op beide regressielijnen (ga dit 
na door invulling). De lijnen snijden elkaar dus in dit punt. 

b. Wanneer Y als de ingestelde (onafhankelijke) variabele wordt beschouwd en X als 
de afhankelijke, gemeten variabele, spreken we van regressie van X op Y. 
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Fig. 10.4a De regressielijn у = 1,14x — 134,92 van voorbeeld 1 





Fig. 10.46 De regressielijn х = 0,85y + 120,20 van voorbeeld 2 


10.4 Standaardfout 


In de voorgaande paragrafen hebben we gezien hoe de eerste regressielijn у = ax + b en de 
tweede regressielijn £ = cy +d bepaald konden worden op basis уап n meetpunten (х;, yi). 
Bij de regressie van Y op X (Y gemeten, X onafhankelijk) is de som van de kwadraten 


п 
D A Э D 
van de residuen 3 (y; — #;)“ een maat voor de schatting van de meetpunten door de eerste 
il 








Lineaire regressie en correlatierekening hoofdstuk 10 229 





regressielijn. Bij regressie van X op Y (X gemeten, Y onafhankelijk) is een maat voor de 
п 


А e e w A € 
schatting van de meetpunten door de tweede regressielijn te geven door У (x; — £;)“. 
i=l 
We definiëren nu de standaardfout in de schatting van de meetpunten door de regressielijn 


als volgt. 
Bij regressie van Y op X 15 de standaardfout in de schatting 





Уу (yi = ах; — Б)? 


bez 





(10.10) 





п 





© (xi — cyi di 


i=l 





(10.11) 





n 


In het algemeen is sy, x niet gelijk aan sy у (dit is verklaarbaar als we nog eens kijken naar 
figuur 10.4a en 10.4b). 

De standaardfout heeft eigenschappen vergelijkbaar met die van de standaardafwijking. We 
herinneren eraan dat de afwijkingen van de meetwaarden bij een bepaalde ingestelde waarde 
ten opzichte van de regressielijn als normaal verdeel verondersteld worden met een gemid- 
delde О еп een standaardafwijking s+. Wanneer we evenwijdig аап de eerste regressielijn 
zowel erboven als eronder op een verticale afstand sy х lijnen zouden trekken, zal daarom 
blijken dat, zeker voor grote waarden van n, ongeveer 68% van de meetpunten tussen deze 
twee lijnen ligt. Immers: de kans dat een normaal verdeelde variabele een waarde bezit 
tussen и — o en u +o is 1 —2P(U > 1) = 1 — (2)(0,1587) = 0,6826. 

Tussen twee evenwijdige lijnen ор een afstand 2- sy, x boven en onder de eerste regressielijn 
ligt ongeveer 95% van alle meetpunten en tussen twee evenwijdige lijnen op een afstand 
3 - зу х boven en onder de eerste regressielijn ligt 99,7% van alle meetpunten. Praktisch 
gezien liggen (vrijwel) alle meetwaarden y; dus tussen у; +3- sy,x en ӯ; — 3 - Err, 
Wanneer we slechts over weinig meetpunten beschikken, wordt een correctie op de formules 
(10.10) en (10.11) toegepast. We herinneren eraan dat bij het schatten van de standaardaf- 
wijking van een populatie in de formule voor de standaardafwijking van een steekproef 
door n — 1 gedeeld wordt in plaats van door n. Er gaat één vrijheidsgraad verloren door het 
schatten van het gemiddelde. Om die zelfde reden wordt bij de schatting van de standaard- 
afwijking s, in de noemer door n — 2 gedeeld. Er gaan door het schatten van a en b twee 
vrijheidsgraden verloren. 
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Conclusie 


Sr. Y 


Voorbeeld 3 
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Beschouw de zes meetpunten van voorbeeld 1. 


nr Xi Yi 
1 164 54 
2 174 60 
з 176 63 
4 180 71 
5 184 76 
6 190 82 
Met n = беп 


şi = р(х) = 1,14x — 134,92 


52,04 
63,44 
65,72 
70,28 
74,84 
81,68 


Yi — Yi 


1,96 
—3,44 
—0,72 

0,72 

1,16 

0,32 


(10.12) 


(10.13) 


0. – 90)? = (1,96)? + (3,44)? + (-0,72)? + (0,72)? + (1,16)? + (0,32)? = 18,16 


El 


15 SY X 


18,16 _ 
6-2 


2,1307 


Voor bijvoorbeeld een ingestelde waarde х; = 175 cm vinden we voor de daarbij beho- 
rende meetwaarde y; een spreidingsgebied 


oftewel: 


ах; +b—3sy.x < у; < ах; +b+3syx 


1,14 - (175) — 134,92 — 3 - (2,13) < у; < 1,14: (175) — 134,92 + 3- (2,13) 


dus: 


Opdracht 
Is het voor het in voorbeeld 1 beschreven geval aannemelijk dat iemand met een lengte van 
180 cm 62 kg weegt? En dat hij 78 kg weegt? Wat is het laagste en wat is het hoogste 


aannemelijke lichaamsgewicht voor iemand die 180 cm lang is? 


58,19 < y < 70,97 


Bereken syy еп geef aan tussen welke waarden de lengte ligt van iemand met een gewicht 


van 60 kg 
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10.5 Niet-lineaire regressie 


Soms zijn er duidelijk aanwijzingen dat het beter is door de puntenwolk van een aantal 
meetpunten (x;, y;) niet een rechte lijn te trekken, maar een kromme. Het verband tussen 
X en Y is dan niet lineair, maar in een aantal gevallen is het toch mogelijk het lineaire 
regressiemodel te gebruiken om de vergelijking van de niet-rechte regressiekromme te vin- 
den. Stel bijvoorbeeld dat we een kromme van het type у = р · д* willen trekken door 
een puntenwolk met n meetpunten (x;, у;) (i = 1,2, , n). Een dergelijke kromme zal men 
in de praktijk vaak tegenkomen bij groeiprocessen: Y is dan een maatstaf voor de groei 
(bijvoorbeeld van het aantal bacteriën in een kolonie) en X 15 een tijdvariabele. 

Het (kromlijnige) model y = p · д" kan getransformeerd worden naar een lineair model 


door aan beide kanten van de vergelijking у = p -q* de logaritme te nemen (met welk 
grondtal dan ook). 
We krijgen dan: log(y) = log(p) + xlog(g), hetgeen met de substitutie у’ = log(y) 


overgaat in у’ = log(p) + х log(q) en dus met log(p) = b en log(q) = a in у = ax +b. 
Met behulp van de ons bekende formules uit paragraaf 10.2 kunnen dan — door daarin y; te 
vervangen door у; = log(y;) — de coëfficiënten a en b berekend worden. Door middel van 
de terugtransformatie p = g? en q = g° (waarin g het grondtal van de gekozen logaritme 
voorstelt) vinden we dan de coëfficiënten p en q. 

Het exponentiële model у = p · q% is niet het enige niet-lineaire model dat in een lineair 
model getransformeerd kan worden. Andere voorbeelden zijn de modellen y = p · х en 
y = p +qcosx. 


Opdracht 
Са na tot welk lineair model het model у = p + q cos х getransformeerd kan worden en 
hoe de coëfficiënten p en q dan berekend kunnen worden. 


Voorbeeld 4 

Als toepassing van het niet-lineaire model у = р · х beschouwen we ееп zekere massa 
gas waarvoor bij 6 instelwaarden van het volume V en de druk P gemeten is. De resul- 
taten waren als volgt: 


питтегі | 2 3 4 5 6 


volume V 541 62,2 70,4 88,0 118,5 194,1 
druk P 61,4 48,9 38,2 28,1 19,2 10,1 


Volgens de thermodynamica bestaat de relatie P - У“ = С (ofwel P = С.У, een 
relatie van het type у = p - х4), waarin k en C constanten zijn. Bereken de meest 
waarschijnlijke waarden van k en C. 


















Lineaire regressie en correlatierekening 


232 





Oplossing 

Omdat Р . V% = С is log Р + klog V = log C (grondtal 10) hetgeen met log P = уеп 
met log V = x overgaat in y + k · x = log C en dus met —k = a en met log С = b in 
y=ax +b. 

Met x; = log V; en y; = log P; (i = 1, 2, 3, ..., 6) berekenen we nu analoog aan voor- 
beeld 1: 


2 


































[ Xi Yi хг Ar: Yi 

| 17332 1,7882 3,0040 3,0993 
2 1,7938 1:6893 32177 3,0303 
3 1,8476 1,5821 3,4136 2,9231 
4 1,9445 1,4487 3,7811 2,8170 
5 2,0737 1,2833 4,3002 2,6612 
6 2,2880 1,0043 5,2349 2,2978 
totaal 11,6808 8,7959 22,9515 2,2978 

11,6808 _ 8,7959 
Metn = 6, х = len асны = 1,9468 еп у = = 1,4660 vinden we: 





_ 16,8287 — 6(1,9468)(1,4660) 0,2954 
Е 22,9515 — 6(1,9468)2 0.2113 


En verder: b = 1,4660 — (—1,40) (1,9468) ~ 4,19 dus С = 10? ~ 10! = 15488. 
Het gezochte regressiemodel heeft dus de vorm P - V140 = 15488. 





= 1,40 dus k = —a = 1,40. 


10.6 Correlatierekening 

10.6.1 De lineaire correlatiecoëfficiënt 

Door de vergelijking van de lineaire regressielijn te vinden, kunnen we vaststellen van welke 
aard het stochastische (‘toevallige’) verband tussen twee variabelen is. Er zal altijd een 
lineair verband worden gevonden. Daarmee weten we echter nog niet direct hoe sterk dit 
verband is, met andere woorden hoe goed de gevonden regressielijn een weergave 15 van het 
eventuele verband tussen de beide variabelen. Een goede maatstaf voor het vastleggen van 
de mate van lineaire afhankelijkheid tussen twee kansvariabelen vinden we in de lineaire 
correlatiecoëfficiënt. 

Voor een steekproef van n waarnemingsparen (xi, yi) (і = 1, 2, ..., п) wordt de lineaire 
correlatiecoëfficiënt aangeduid met het symbool r(X, У) en gedefinieerd als: 
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п 
Уху пх: у 
jl 


РОХ Е) = 


(10.14) 





( (х:)2 — п. ©?) . (Бо — п: mr) 
i=l i=] 


Een andere schrijfwijze voor deze formule is de volgende: 


8 er — EN Si 
NE mn (10.15) 





(Èo 2 ©?) . (Хо e 52) 
il i=] 


Voorbeeld 5 
Bereken volgens een van de formules (10.14) of (10.15) de lineaire 
correlatiecoëfficiënt r (X, У) voor de 6 meetpunten van voorbeeld 1. 


Oplossing 6 
Volgens formule (10.14) vinden we met x = 178, у = 68, У х;у; = 73080, 
i=l 
б 7 
У (у) = 28282: 
i=] 


73080 — 6(178)(68) 
r(X, Y) = —— = 0,983 


V (190504 — 6(178)?) (28282 — 6(68)2) 


Uit de formules (10.6) en (10.9) blijkt dat het kwadraat van de door formule (10.14) gedefi- 
nieerde lineaire correlatiecoëfficiënt r (X, У) gelijk 15 aan het product van de beide regres- 
siecoëfficiënten а еп c. Voor r(X, Y) geldt dan: 


6 
У (х;)? = 190504 en 
=] 


РОХ, Ў) = уй xg (10.16) 


waarbij het plusteken geldt als а en с beide positief zijn еп het minteken als а еп с beide 
negatief zijn (het is niet mogelijk dat a en c een verschillend teken hebben). 


Voorbeeld 6 
Bereken volgens formule (10.16) de lineaire correlatiecoëfficiënt r(X, У) voor 
de 6 meetpunten van voorbeeld 1. 


Oplossing 
Met a = 1,14 en с = 0,85 vinden we volgens formule (10.16): 


FE, EN = 1,14: 5 0,85 = 470,969 = 0,984. 
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Wanneer de beide regressielijnen у = ax +b еп £ = cy +d samenvallen, bestaat er tussen X 
en Y een lineair functioneel verband. Alle meetpunten liggen dan exact op de beide regres- 
sielijnen. Maar er geldt in dat geval ook dat de beide regressiecoëfficiënten a en c elkaars 
omgekeerde zijn, waardoor volgens formule (10.16) r(X, Y) = —l (wanneer a < Оеп 
с < 0, dus wanneer de beide samenvallende regressielijnen dalend zijn) of r(X, Y) = +1 
(wanneer a > О еп с > 0, dus wanneer de beide samenvallende regressielijnen stijgend 
zijn). Met andere woorden: wanneer tussen twee variabelen X en Y een dalend respec- 
tievelijk stijgend lineair functioneel verband bestaat, dan is r(X, Y) = —1 respectievelijk 
r(X,Y) = +1. 

Wanneer tussen twee kansvariabelen X еп У geen enkel lineair verband bestaat, is de line- 
aire correlatiecoëfficiënt r(X, Y) = 0. Dit betekent niet dat dan de variabelen X en Y per 
definitie onafhankelijk zijn: elk ander verband dan een lineair verband is in dat geval nog 
mogelijk. 

Wanneer tussen twee kansvariabelen X en Y een lineair verband bestaat met een negatieve 
regressiecoëfficiënt, 15 —1 < r(X, Y) < 0. Hoe kleiner de spreiding van de punten rondom 
de regressielijn, hoe dichter r(X, Y) bij —1 zal liggen; hoe groter die spreiding, hoe dichter 
r(X, Y) bij О zal liggen. Is het verband tussen de beide variabelen echter lineair met een 
positieve regressiecoëfficiënt, dan is 0 < r(X, Y) < +1 en zal r(X, Y) bij een grotere 
spreiding van de punten rondom de regressielijn dichter bij О liggen en bij een kleinere 
spreiding dichter bij +1. 

In figuur 10.5 zijn de eerder geschetste situaties nog eens aanschouwelijk voorgesteld. 

















© WE? 
Sa 5, „4 
оо „ Deg 
о 20 ° 
ө © 
А: г=-1 Гог =й) 
09990 
EI © 
е = | 
Е: fez) Fers С.0<г<1 H:r=1 


Fig. 10.5 Verschillende waarden van r 
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In geval B ligt r(X, Y) dichter bij —1 dan in geval С. In geval G ligt r dichter bij +1 dan in 
geval F. In geval E is er wel een duidelijk verband maar dat is niet lineair. In dat geval geldt 
dus ғ = 0. 


10.6.2 Het begrip covariantie 
Voor een steekproef van n waarnemingsparen (x;, yi) (€ = 1, 2, 3, ..., n) wordt het begrip 
covariantie als volgt gedefinieerd: 


У (xi —Х)(у; — У) 


cov(X, Y) = nar Sg (10.17) 
И — 


п п 
of - wederom, omdat 3 (x; — ¥)(y; — Y) te schrijven is als 3 (х;у) – n- X- y: 
i=l i=] 


n 
iyi) ny 
соох, У) = ——— (10.18) 
n— ] 
Het directe gevolg van deze definitie is dat de zojuist gedefinieerde correlatiecoëfficiënt 
r(X, Y) ook nog als volgt te schrijven is: 


cov(X, Y) 
FIA, А jm (10.19) 
SX * SY 


waarbij sy de standaardafwijking is van de x-coördinaten van de n meetpunten en sy de 
standaardaf wijking is van de y-coördinaten van de n meetpunten. Merk op dat de bena- 
ming covariantie logisch is. Blijkbaar is deze grootheid te vergelijken met de variantie. 
Formule (10.19) gaat immers over in de formule voor de variantie van X wanneer tegelijk 
у; vervangen wordt door x; en у door x. 

Het ligt voor de hand om net als bij de variantie voor de covariantie van een populatie van 
coördinatenparen in de formules (10.17) en (10.18) niet door п — 1 maar door n te delen. 
Formule (10.19) blijft voor een populatie dezelfde, zij het dat de correlatiecoëfficiënt als pa- 
rameter van de populatie (net als de standaardafwijking) met een Griekse letter geschreven 
wordt. Samengevat: 


OE, P 
att Ту BE (10.20) 
Ту * {ғу 


met: 
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N 
SX (х; == xg — Uy) 
[==] 


OV A Y) = 10.21) 
cov( ) N ( 
N 
A (xiyi) – №: ux: Ur 
_ il Gebees (10.22) 
N 
N 
) iyi) 
i=] 
Sa beggen ; 10.23) 
N Mx Hy ( 


Voorbeeld 7 

In onderstaande tweedimensionale tabel is voor een populatie van 50 studenten vermeld 
welke examencijfers zij hadden voor de vakken wiskunde (X) en statistiek (У). 

Zo kan uit de tabel bijvoorbeeld worden afgelezen dat 7 studenten voor wiskunde een 
6 hadden en voor statistiek een 7. Bereken de covariantie cov(X, Y) еп met behulp 
daarvan de lineaire correlatiecoëfficiënt. 








Уу х 1 2 3 4 5 6 7 8 9 10 totaal 
1 0 0 0 0 о 0 0 0 0 0 0 
2 0 0 0 0 0 о 0 0 0 0 0 
3 0 0 0 0 0 0 О о о 0 0 
4 99g 0.4 1 0 0 0 0 3 
5 0 0 0 1 3 4 3 0 0 0 Ki 
6 0 0 0 2 3 6 4 0 0 0 15 
7 0 0 0 оо 7 6 1 0 Q 14 
8 0 0 0 0 0 2 | 1 1 0 5 
9 0 0 0 0 о 0 | 1 0 0 2 
10 0 0 0 0 0 0 О 0 0 0 0 
totaal 0 0 0 3 8 20 15 3 1 0 50 
Oplossing 
3(4) + 8(5) + 20(6) + 15(7) + 3(8) + 109) 
UX = 0,2 
50 
3(4) + 11(5) + 15(6) + 14(7) + 5(8) + 2(9) 
Шү =-—————————— 6,26 
50 
50 


29 = 4) + 106-4) + ЦА EK 3059) 446+ 3) 4 307 +5)+ 
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= 2(4.6) + 3(5:6) +6(6-6) +4(7-6) +7(6- 7) +6(7-7) + 
LOS, ër 4- 9(6 + ®) 4- 1(7 B HLB - DP 10 BH 104 DH PER. 90 
— 1973 


dus 
1973 
бою SX. И) = "en — (6,2)(6,26) = 0,648 


50 
у(х)? = 3(42) + 8(52) + 20(62) + 15(7°) + 3(82) + 1092) = 1976 


i=] 


1976 


Dus oz = E (6,2)? = 1,08 еп ox = /1,08 = 1,0392 
50 
Уу (у)? = 3(42) + 11(5°) + 15(62) + 14(72) + 5(82) + 2(9°) = 2031 
=] 

> 2031 8 
Dus су = "en (6.260) = 1,4324еп oy = /1,4324 = 1,1968 

| 0, 648 

Conclusie: о(Х, Ni = 0,521 


(1,0392)(1,1968) 


In overeenstemming met formule (10.23) geldt voor de covariantie van twee kansvariabelen 
X en Y met verwachtingswaarden (gemiddelden) E(X) en E(Y): 


cov(X, Y) = De an fie Bin = EE DEED ED (10.24) 


N 
Di yi) 


Wanneer twee kansvariabelen onafhankelijk zijn, zijn ze ook lineair onafhankelijk, dus is 
de lineaire correlatiecoëfficiënt gelijk aan 0. Volgens formule (10.20) is dan ook hun cova- 
riantie gelijk aan 0 en geldt er — zie formule (10.24) – dat E(X -Y) = E(X): E(Y). 


10.7 Meervoudige regressie 


Het kan voorkomen dat een variabele van twee of zelfs meer variabelen afhankelijk is. 
Wanneer deze afhankelijkheid lineair is kan als wiskundig model voor het verband tussen 
de variabelen Z, X en Y gebruikt worden de vergelijking: 


z = dn + aix + азу (10.25) 
Uit de wiskunde weten we dat formule (10.25) de vergelijking is van een plat vlak in de 


ruimte, die wordt opgespannen door een x-as, y-as en z-as. Wanneer we over een aantal (л) 
meetpunten met de coördinaten (x;,y;,Zi) beschikken, kunnen we zoeken naar het vlak dat 
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deze meetpunten het beste benadert. Door opnieuw het kleinste kwadratenkriterium toe te 


passen, komen we aan het regressievlak. 
De coëfficiënten ag, а en аз die het regressievlak bepalen, vinden we door het volgende 


stelsel vergelijkingen op te lossen: 


i=] 


A (кш) 


i=] 


У Oi Zi) 


Ge 


п 


п 
ag : n + a] SH +a: Уу 


Ges p=] 


n n n 
ао · S a + а · У. Ger +a: У (ку) (10.26) 


==] i=] 1 


п n n 
2 
ap · Di "аі + У (жй) + аә · У Gei 


Cl GG ү 


Om de mate van (lineaire) samenhang tussen de variabelen Z en X, Z en Y en ook X en Y 
te kunnen bepalen, kunnen we de formules voor de correlatiecoëfficiënt toepassen: 


PER = 


рәү = 


рүү = 


waarbij: 


$ (zi — Z)(xi EI 


(10.27) 
NO: OXY 
n 
5.06 000—0) 
(10.28) 
псу *0 у 
LO = УУ =) 
(10.29) 


П :Оү-0 ү 
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Bewezen kan worden dat de vergelijking van het regressievlak als volgt afhangt van de 
onderlinge correlatiecoëfficiënten: 











Jed e e == ў — 07ү · XX 
gd PZX х) > | (22 PZY Gel (10.30) 


Oz 1 — (оух)° Сү 1 — (оух)? 


Voorbeeld 8 

Een docent wil onderzoeken wat de invloed is op het tentamencijfer Z van een groep 
van 120 studenten van de resultaten van twee daaraan voorafgaande tussentoetsen (Y en 
X). De docent berekende daartoe de gemiddelde scores, de standaardafwijking en de 
onderlinge correlatiecoëfficiënten en kwam tot de volgende resultaten: 


2, Y X 


gemiddelde А 78 "CD 
standaardafwijking 1,1 0,7 0,8 


en correlatiecoëfficienten оуу = 0,6, pzy = 0,65 еп pzy = 0,7. 


Voorbeeld 8 (vervolg) 
De vergelijking van het regressievlak wordt 





z—7,1 © (0,7 — 0,65 х 0,6\ у – 7,8 А 0,65 — 0,7 x 0,6\ х — 7,0 
LI 1 — (0,6)? 0,7 1 — (0,6)2 0,8 
dus: 
0,90909z — 6,4545 = 0,69196y + 0,44922х — 8,5419 
oftewel: 


z = 0,76116y + 0,49414x — 2,2961 


Op basis van dit resultaat kan bijvoorbeeld geschat worden wat het tentamenresultaat is 
voor een student met een 9 voor de eerste tussentoets en een 7 voor de tweede tussentoets. 
2 = 0,76116 - 9 + 0,49414 . 7 — 2,2961 = 8,0133 


Voor de standaardfout in het regressiemodel z = ag + ajx + a2y (met Z als gemeten 
variabele) op basis van n meetpunten kan geschreven worden: 





n 
$` (zi — (ао + aixi + a2yi))? 


==] 





п —3 


Het aantal vrijheidsgraden is hier n — 3, omdat er drie coëfficiënten (ag, aj en аз) geschat 
moeten worden. 
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Meervoudige regressie 

Wanneer de variabele Z van meer dan twee variabelen (lineair) afhankelijk is, is het regres- 
siemodel nog verder uit te breiden. Voor de dan te gebruiken formules verwijzen we naar 
statistische literatuur. In statistische programmatuur (zoals ook in EXCEL) zijn dit soort 


modellen meestal wel aanwezig. 


10.8 Het optellen en aftrekken van afhankelijke kansvariabelen 


Als toepassing van het begrip covariantie keren we even terug naar hoofdstuk 7, waar we 
steeds variabelen bij elkaar opgeteld of van elkaar afgetrokken hebben met de aanname dat 
deze variabelen onafhankelijk zijn van elkaar. Bij het optellen en aftrekken van 2 varia- 
belen die tot op zekere hoogte lineair van elkaar afhangen, mogen de formules (7.1) t/m 
(7.4) in aangepaste vorm gebruikt worden. De aanpassing betreft overigens uitsluitend de 
formule voor de variantie. Hierin wordt de afhankelijkheid van de twee variabelen als volgt 
betrokken. 


Stelling 1 
De som Z = X + Y van twee normaal verdeelde kansvariabelen X en У is normaal 


verdeeld. 
Wat betreft het gemiddelde en de variantie van de som Z = X + Y geldt: 


Hz = Их Hy (10.31) 
25, == т, + +2 .cov(X,Y) (10.32) 
Stelling 2 


Het verschil Z = X — Y van twee normaal verdeelde kansvariabelen X en Y is normaal 
verdeeld. Wat betreft het gemiddelde en de variantie van het verschil Z = X — Y geldt: 


Hz = My Hy (10.33) 
с к= 7, Е o3 —2-cov(X, Ү) (10.34) 


Wanneer X en Y (lineair) onafhankelijk zijn, dus als de keuze van een waarde voor X totaal 
onafhankelijk is van de keuze van de waarde van Y, is de covariantie 0 en gaan de stellingen 
over in de stellingen 1 en 2 van hoofdstuk 7. 

In het volgende voorbeeld geven we antwoord op een in paragraaf 7.2 gestelde vraag. 


Voorbeeld 9 
Uit een bak met staafjes (met normaal verdeelde lengte X, uy = 5 ст en ox = 0,2 
cm) pakt een robotarm een staafje en meet dit nauwkeurig op. Vervolgens wordt door 
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de robot net zo lang in de bak gezocht totdat deze een staafje vindt dat precies even lang 
is. Deze staafjes worden vervolgens aan elkaar gelast. Deze procedure wordt enige tijd 
herhaald. Bepaal de kansverdeling van de lengten van de aan elkaar gelaste staatjes. 


Oplossing 

Merk op dat hier niet aselect (onafhankelijk, stochastisch) wordt opgeteld. De lengte 5 
van een gelast staafje is exact 2 maal de lengte van het eerst gekozen staafje: 5 = 2: X. 
Anders gezegd: de keuze van het tweede staafje is volledig (lineair) afhankelijk van de 
keuze van het eerste staafje en de correlatiecoëfficiënt van de beide variabelen X is dus 
Be 

Volgens de zojuist geformuleerde stelling geldt dan dat 5 normaal verdeeld is met: us = 
Шу Еу = 2 + ру = 10 em еп 

с = a$, + 05, + 2 · соо(Х, Х) = az Jos +2- pyy- Or Or = 4.05, zodat 
era 2. бу =0А cm. 

We merken op dat dit resultaat geheel in overeenstemming is met wat we in hoofdstuk 3 
geleerd hebben: wanneer alle waarnemingsuitkomsten met 2 vermenigvuldigd worden, 
worden gemiddelde en standaardafwijking eveneens met 2 vermenigvuldigd. 

Pas op: wanneer de keuze van het tweede staafje steeds willekeurig (aselect) was ge- 
weest, hadden we wel hetzelfde gemiddelde maar niet dezelfde standaardaf wijking ge- 
kregen!! Immers, in dat geval (5 = X + X), zou volgens stelling 1 uit hoofdstuk 7 
gelden: e Ss ei + E к=» 0% zodat os = ох · V2. 


Opdracht 
Geef een verklaring (zonder formules) waarom in het laatste geval de standaardafwijking 
kleiner 15 dan in het voorbeeld zelf. 


Voorbeeld 10 

Een project bestaat uit de onderling onafhankelijke activiteiten A, В, С, D en Е, die 
direct na elkaar worden uitgevoerd. De activiteiten hebben een tijdsduur die normaal 
verdeeld is. Gemiddelde en standaardafwijking staan in de tabel: 


activiteit рш (in dagen) о (in dagen) 


А 2,1 0,2 
B 3,4 0,4 
G 4,1 0,5 
D 3, 0,3 
Е З. 0,4 
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Welke invloed heeft activiteit E op de totale projectduur? 


Oplossing 

Het is vanzelfsprekend dat activiteit E (maar ook de overige activiteiten) invloed heeft op 
de totale projectduur. Voor de totale projectduur T geldt: Т = A+B+C+D+E, waarbij 
we de letters А, В, С, Р en E gebruikt hebben voor de tijdsduur van de betreffende 
activiteiten. Omdat A t/m E onafhankelijk van elkaar zijn, kunnen we (volgens stelling 
5 uit hoofdstuk 7) stellen dat T normaal verdeeld is met gemiddelde ит = ид + ив + 
Ис + ир + Hpg = 18 dagen en variantie ox == o: + oO + ez + on ch с. = 0,7 dus 
standaardaf wijking or = 0,837 dagen. 

Om de mate van afhankelijkheid te kunnen bepalen tussen Т en Е, berekenen we de 
correlatiecoëfficiënt met behulp van de covariantie cov(T, E). Deze covariantie kunnen 
we berekenen door te bedenken dat A+ В + С + Юр = Т – Е. 

De som А + B + C + Dis normaal verdeeld met (volgens stelling 5 uit hoofdstuk 7) 
gemiddelde uasgpacap = Ma + Ив + Ис + ир = 14,8 dagen en variantie 
Олүв+с+р = 94 +05 tok +02 = 0,54 dus o А+в+С+р = 0,735 dagen. 

Formule (10.34) leert nu dat E Akter = а -+ ge —2 . cov(T, E) dus 0,54 = 


0,54 — 0,86 
0,7 + 0,16 — 2 - cov(T, Ei. zodat cov(T, E) = SC SR ES 


De correlatiecoëfficiënt tussen de totale projectduur T en de duur van activiteit Е is dan 


volgens formule (10.20): 
cov(T, Е) Е 0,16 


„ёк ОЕ и шей 
PTET ев ORDUA 


Opgaven 


1. 


2. Gegeven zijn de volgende waarnemingsparen: 


Gegeven zijn de volgende waarnemingsparen: 


і 1 2 3 4 5 
х 3 2 4 0 5 
у 7 -6 16 0 13 


Bepaal de vergelijking van de eerste regressielijn en bereken de som van de residuen 
ten opzichte van deze lijn. Bereken ook de som van de kwadraten van de residuen. 
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i | 2 3 H Э б 7 8 


х 15 21 24 10 6 18 20 14 
ж Өй 90 05 39 15 195 B Jd 


Bepaal de vergelijking уап de tweede regressielijn en bereken de som van de residuen 
ten opzichte van deze lijn. Bereken ook de som van de kwadraten van de residuen. 


Gegeven zijn de volgende waarnemingsparen: 


i | 2 3 - 5 6 7 8 9 10 


х; 09 02 06 08 04 07 10 01 03 05 
yi 17 4 10 14 18 7 22 21 19 23 


a. Bepaal de regressielijn van Y ор Х. 
b. Bepaal de regressielijn van X op Y. 
c. Bepaal de correlatiecoëfficiënt tussen X en Y. 


Op een machine worden ronde aluminium staven met een lengte van 100 cm in stukjes 
van 10 cm gezaagd. Hoe groter de diameter van de staaf, hoe groter de zaagtijd is. Om 
te onderzoeken wat het verband is tussen diameter en zaagtijd, werd van 9 staven de 
diameter (D) gemeten, waarna de 9 staven een voor een in stukjes werden gezaagd en 
voor elke staaf de zaagtijd (Z) werd gemeten. De resultaten waren als volgt: 


i | 2 З + Д 6 7 8 9 


d 12,1 12,7 14 13,6 12,0 15,4 15,9 147 15,8 
Sr 208 212 19,6 236 21,0 26,8 25,0 25,6 27,8 


a. Bepaal de vergelijkingen van de eerste en de tweede regressielijn. 

b. Bereken de correlatiecoëfficiënt tussen de zaagtijd en de diameter. 

с. Voor een tiende staaf met een diameter van 11,7 mm werd een zaagtijd van 21,4 
seconden gemeten. Is er reden om deze tijdmeting te wantrouwen? 


Om te onderzoeken of het aantal in rollen gordijnstof voorkomende weeffouten des te 
groter is naarmate de rollen langer zijn, werd van 14 rollen van verschillende lengte het 
in de rollen voorkomende aantal weeffouten geteld. 

De resultaten waren als volgt: 
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nr.rol lengteinm aantal weeffouten пг. rol lengtein т aantal weeffouten 


| 160 2 8 480 3 
2 240 2 9 580 5 
З 80 3 10 580 $ 
4 240 2 11 560 7 
5 260 6 12 200 3 
6 460 4 13 580 З 
7 480 3 14 720 8 


a. Bepaal de vergelijkingen van de eerste en de tweede regressielijn. 
b. Bepaal de correlatiecoëfficiënt tussen het aantal weeffouten per rol en de lengte 
van de rollen. 


Op een consultatiebureau wordt voortdurend onderzocht wat de relatie is tussen leeftijd 
(variabele Z), lengte (variabele X) en gewicht (variabele Y) van jonge kinderen. Bij 
een kind werden de volgende metingen gedaan: 


meting | 2 3 - 5 6 


leeftijd (in dagen) 466 564 863 915 1091 1460 
lengte (in ст) 78 82 91 95 101 109 
gewicht ( in pond) 10,1 11,6 14 15,1 16,6 19,6 


Bepaal een lineair regressiemodel op grond van de gegevens. 


Het aantal bacteriën per volume-eenheid in een bacteriëncultuur groeit exponentieel in 
de tijd. Als Y het aantal bacteriën per volume-eenheid is en X de tijd in uren, geldt er 
у = а · Б“. In een zeker onderzoek werden de volgende resultaten gevonden: 


П 1 2 3 4 5 6 7 


х 0 1 2 3 4 5 6 
yi 30 45 63 91 132 191 278 


Bereken, gebruikmakend van de methode van de kleinste-kwadraten, de meest waar- 
schijnlijke waarde van a en b. 


Gegeven zijn de volgende waarnemingsparen: 


i 123 4 5 6 
Xi | 5 6 
Yi | 5 | 
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10. 








a. Teken van deze 6 meetpunten een puntendiagram. 
b. Teken in het puntendiagram een kromme van het type y = a + b · x?. 


с. Dezelfde vraag voor een kromme van het type y = а · x?. 


De scores van een grote groep studenten voor een tentamen wiskunde bleken normaal 
verdeeld te zijn met gemiddelde uy, = 6,35 en standaardafwijking ow = 0,9. De sco- 
res van dezelfde groep studenten voor een tentamen statistiek bleken eveneens normaal 
verdeeld te zijn, echter met gemiddelde u; = 5,90 en standaardafwijking os = 1,20. 
Voor 33% van de studenten lag de score voor het tentamen wiskunde meer dan 1 punt 
boven de score voor het tentamen statistiek. Bereken de correlatiecoëfficiënt tussen de 
scores voor de beide vakken. 


In een audioversterker worden twee transistors van hetzelfde type in serie geschakeld, 

waarbij de totale versterking tussen 40 dB en 60 dB moet liggen. De transistors worden 

geleverd in partijen waarvan de versterking normaal verdeeld is met een gemiddelde 
van 25 dB en een standaardaf wijking van 3/2 dB. 

De transistors worden bij ontvangst gesplitst in transistors met een versterking die lager 

is dan het gemiddelde (A-transistors) en transistors met een versterking die hoger is dan 

het gemiddelde (B-transistors). 

Daardoor ontstaan partijen A-transistors met een gemiddelde versterking van 20 dB 

en een standaardafwijking van 3 dB (normaal verdeeld) en partijen B-transistors met 

een gemiddelde versterking van 30 dB en een standaardafwijking van 4 dB (eveneens 
normaal verdeeld). 

a. Wanneer men in de versterkers twee transistors inbouwt die willekeurig uit een 
niet-gesplitste partij worden betrokken, hoeveel procent uitval zal dan ten aanzien 
van de versterking optreden? 

b. Hoe hoog zal dit percentage zijn wanneer men een A-transistor en een B-transistor 
willekeurig combineert en inbouwt? 

с. Wanneer men met behulp van bepaalde apparatuur bij iedere A-transistor een B- 
transistor voegt, zodanig dat slechts 1,24% van de ontstane combinaties niet aan 
de gestelde versterkingseis voldoet (0,62% te laag en 0,62% te hoog), hoe groot is 
dan de correlatiecoëfficiënt tussen de versterking van de beide transistors? 

d. Wanneer de correlatiecoëfficiënt tussen de versterking van de beide transistors 
p == -4 bedraagt, hoeveel procent van de combinaties voldoet dan niet aan de 
gestelde versterkingseis? 

e. Hoe groot is in het geval dat men een A-transistor en een B-transistor willekeurig 
combineert en inbouwt, de correlatiecoëfficiënt tussen de versterking van de A- 
transistors en die van de combinaties? 

f. Hoe groot is de correlatiecoëfficiënt tussen de versterking van de B-transistors en 
die van de combinaties? 








ЕЙ Statistische ` 
procesbeheersing 





11.1 Inleiding 


Het thema ‘statistische procescontrole’ SPC (Engels: statistical process control) staat de 
laatste tijd sterk in de belangstelling. We kunnen spreken van een deels hernieuwde belang- 
stelling want de grondbeginselen van SPC werden al in de jaren 1920-1930 geïntroduceerd 
door pioniers als Shewhart (USA) en Tippett (GB). 

Aan de doelstelling van SPC en gebruik van statistische technieken zijn in latere jaren, 
beginnend rond 1960, nieuwe elementen toegevoegd: pioniers zijn onder andere Deming en 
Juran. 

Bij Shewhart ligt de directe doelstelling in het statistisch beheerst maken en houden van een 
proces, Juran en vooral Deming voegen daaraan toe: de continue verbetering van het proces 
en daarmee de continue verbetering van de productkwaliteit. 

In verband met beide doelstellingen gebruikt men dezelfde statistische basisinformatie van 
het proces. 

De procesbeheersing is vooral een opgave voor de mensen die in het productieproces zelf 
actief zijn. 

Hetgeen zojuist is gezegd, wordt nog eens toegelicht aan de hand van figuur 11.1. 





Fig. 11,1 Controlekaart van een proces 
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In figuur 11.1 is de controlekaart van een proces weergegeven, gezien in de ontwikkeling 
van de tijd. 
Fase A: Het proces is niet onder statistische controle, met als gevolgen: 
— de kwaliteit van het product 15 onzeker; 
— er zijn relatief hoge kosten voor inspectie en correctie. 
Fase B: Het proces is onder statistische controle gebracht 
— de kwaliteit van het product spreidt alleen ten gevolge van procesinherente sprei- 
ding; 
— de productkwaliteit is voorspelbaar. 
Fase C: In het proces zijn wijzigingen aangebracht 
— waardoor de productkwaliteit qua gemiddelde en spreiding op een gunstiger niveau 
is gebracht. 


Definitie 

SPC is de inzet van een groot aantal (statistische) methoden om variaties in de kwaliteit- 
en procesgegevens aan het licht te brengen met het doel maatregelen te kunnen treffen 
om een gelijkmatiger en zich continu verbeterende productkwaliteit te verkrijgen. 


Naarmate de productkwaliteit zich verbetert, zal SPC ook tot een toename van productivi- 
teit leiden, tot een daling van het energieverbruik en tot een verhoging van de concurrentie- 
kracht. 

De reeds hiervoor genoemde W. Edwards Deming, die SPC op een breed gebied in de 
Japanse en (later!) de Amerikaanse industrie invoerde, definieert SPC als volgt: 


‘SPC is the application of statistical principles and techniques in all stages of production 
directed towards the economic manufacture of a product that is useful and has a market.’ 


Doelstellingen van SPC zijn samengevat: 
het proces onder statistische controle brengen en houden; 


het proces en het product verbeteren; 
— het zwaartepunt verleggen van productinspectie naar procesbeheersing. 


11.2 Controlekaarten 


In dit hoofdstuk gaan we verder in op de statistische procesbeheersing. Een belangrijk 
hulpmiddel hierbij is de controlekaart. 

Het doel van het gebruik van controlekaarten is tweeledig. 

a. Het proces wordt door middel van een controlekaart continu bewaakt en geëvalueerd, 
teneinde het proces statistisch beheerst te houden. Een belangrijke taak hierbij is vast 
te stellen of het proces veranderd is (assignable cause) en bijgesteld moet worden. 
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D Indien het proces niet statistisch beheerst is, helpt een controlekaart je het onder “sta- 
tistical control’ te brengen. 


Een controlekaart wordt meestal aangelegd voor het gemiddelde (x) еп de standaardafwij- 
king (s) van de steekproef. Aan de hand van (x) kan men nagaan of het werkelijke proces 
verschoven 15, dus of het (onbekende) populatiegemiddelde u; afwijkt van de ‘target’ шо. 
Daartoe worden regelmatig steekproeven uit het lopend proces genomen en in een grafiek 
ingetekend (zie fig. 11.2). 
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Fig. 11.2 Voorbeeld controlekaart voor x 


Bij een statistisch beheerst proces zal het steekproef gemiddelde (x) zich bewegen rond een 
constant procesniveau Un, De afwijkingen van х ten opzichte van uo zijn het resultaat van 
de som van op zichzelf kleine effecten van tal van factoren die op het proces inwerken. 
Voorbeelden zijn: ‘normale’ temperatuurfluctuaties, variaties in grondstof, enzovoorts. 

In figuur 11.3 is een controlekaart gegeven van een proces dat statistisch beheerst verloopt 
tot steekproefnummer 12, waarna het proces systematisch gaat afwijken van Un. 


11.3 Doel en opzetten van verschillende typen controlekaarten 


Het type controlekaart dat in de inleiding is beschreven, 15 de Shewhart-controlekaart, ge- 
noemd naar de Amerikaanse statisticus Shewhart die deze controlekaart in 1924 introdu- 
ceerde. 

In het voorbeeld is uitgegaan van continue kwantitatieve kenmerken, zoals sterkte, visco- 
siteit, enzovoorts. Deze controlekaarten zijn gebaseerd op de normale kansverdeling. De- 
zelfde statistische principes kunnen we toepassen bij discrete kenmerken, zoals het per- 
centage defecten in een partij, het aantal breuken, het aantal storingen, enzovoorts. Voor 
dergelijke kenmerken zijn de binomiale en Poisson-kansverdelingen van toepassing. 
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Fig. 11.3 Voorbeeld controlekaart van proces waarin het procesniveau is veranderd 


Andere vormen van controlekaarten zijn: 

— de controlekaart voor individuen, toegepast indien slechts één waarneming per steek- 
proef wordt verricht; 

— de goed- of afkeurkaart, waarbij bepaalde fluctuaties in niveau zijn toegestaan, echter 
gereageerd moet worden indien bepaalde toleranties dreigen te worden overschreden; 


11.3.1 Ое Shewhart-controlekaart voor kwantitatief meetbare eigenschap- 
pen 

Het doel van de Shewhart-controlekaart is voldoende besproken in de inleiding van dit 

hoofdstuk. In deze paragraaf zullen we de aandacht richten op het inrichten van een Shewhart- 

kaart. Belangrijke uitgangspunten bij de Shewhart-controlekaart voor kwantitatief meetbare 

eigenschappen zijn: 

— de toevallige afwijkingen kunnen praktisch voldoende nauwkeurig door de ‘normale ver- 
deling’ worden beschreven; 

— de meetresultaten van de steekproeven zijn onderling onafhankelijk (er is geen correla- 
tie). 


De berekening van de grenzen in de Shewhart-controlekaart is gebaseerd op informatie 
van de hiervoor genoemde normale verdeling van de steekproefuitkomsten als het proces 
statistisch beheerst verloopt. In het onderstaande zullen we ingaan op de berekening van 
deze grenzen. 

Een beslissingsregel bij de Shewhart-controlekaart is onder andere: 


Als een waarneming buiten de actiegrenzen valt, dient de oorzaak van de afwijking op- 
gespoord te worden en gecorrigeerd. 
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11.3.2 Het berekenen van de grenzen in de Shewhart-controlekaart 
Hierbij worden twee gevallen onderscheiden: 

1. _populatiegemiddelde en spreiding (ш en o) zijn bekend; 

2. _populatiegemiddelde en spreiding zijn niet bekend. 


1. Gemiddelde en spreiding zijn bekend (и en o zijn bekend) 
In het geval dat het populatiegemiddelde џ en de populatiespreiding o bekend zijn, 15 
het zo dat het gemeten kenmerk afkomstig is van productie-eenheden over lange tijd, 
uit een ongestoord verlopen proces. We kunnen nu de normwaarde en de grenzen voor 
een controlekaart berekenen voor steekproeven van n stuks. 


а. |x-kaart 


normlijn: populatiegemiddelde џи 


Bovenste actiegrens: 


Onderste actiegrens: 





Bij het berekenen van de bovengrens voor de R-kaart hebben we enkele nieuwe 
factoren nodig. Voor de gemiddelde range maken we gebruik van de factor d>, 
voor de bovengrens van D2 en voor de ondergrens уап Dj. De benodigde factoren 
zijn vermeld in tabel B12. Deze factoren zijn afhankelijk van de steekproef grootte 
en niet van het aantal steekproeven. Met behulp hiervan kunnen we de lijnen op de 
R-kaart als volgt berekenen: 


Target: gemiddelde range d2 · o 


Onderste actiegrens: 
Bovenste actiegrens: 





Indien een spreidingskaart voor de steekproefstandaardafwijking s moet worden 
opgesteld, gaat dit als volgt (ook de hiervoor benodigde constanten zijn in tabel 
B12 vermeld): 


Target: сд: о 


Onderste actiegrens: 


Bovenste actiegrens: 
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2. Gemiddelde en spreiding zijn onbekend 
In het geval dat zowel populatiegemiddelde als spreiding niet bekend zijn, moeten we 
deze eerst schatten. Dit doen we aan de hand van de resultaten van een voldoend groot 
aantal steekproeven (dit aantal ligt in de praktijk meestal rond de 20) met dezelfde 
omvang als die waarvoor we de controlekaarten willen gaan gebruiken. 
Uit deze gegevens berekenen we per steekproef het gemiddelde x en de range (R) en 
daarna het gemiddelde van alle steekproefgemiddelden (Хе) en het gemiddelde van 
de ranges (R). Wel dient nog opgemerkt te worden dat de circa 20 steekproeven die 
nodig waren, niet direct na elkaar genomen mogen worden, maar verspreid in de tijd en 
dan nog uit een periode waarvan men overtuigd is, dat er geen storingen in het proces 
zijn opgetreden. 
De benodigde gegevens voor de x-kaart en de R-kaart berekenen we nu als volgt: 


а. | X-kaart 


Target: gemiddelde van alle steekproefgemiddelden хет 


Onderste actiegrens: Xgem — А2: К 





Bovenste actiegrens: Xgem + А2 · R 


De factor Az staat vermeld in tabel B12. 
, 
Target: gemiddelde range R 


Onderste actiegrens: 


Bovenste actiegrens: 





De factoren D3 en D4 staan wederom vermeld in tabel B12. 


c. Analoog volgt voor de x- en s-kaart: 


Target: totaal gemiddelde Хе 


Onderste actiegrens: Xgem — АЗ -i 
Bovenste actiegrens: Xgem + Аз · $ 





Target: 5 










Onderste actiegrens: 
Bovenste actiegrens: 
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Voorbeeld 1 

Als voorbeeld voor het opstellen van een x- en R- kaart nemen we de gegevens in onder- 
staande tabel. In deze tabel staan de resultaten vermeld van 20 steekproeven van n = 5 
stuks, waarbij het meetkenmerk het gewicht van een bepaald product is. Het populatie- 
gemiddelde (u) еп de populatiespreiding (о) zijn in dit geval onbekend en zullen dus 
geschat moeten worden uit de genomen steekproeven. 


EN RS 


о о Уо ол UON == 





Tabel 11.1 


1. Bepalen van controlegrenzen voor de x-kaart: 
Van elke steekproef wordt eerst het gemiddelde (x) en de range (R) bepaald. Ver- 
volgens worden de lijnen van de controlekaart berekend: Normlijn of target is het 
overall gemiddelde: Xgem (= 468,29). 
Voor het bepalen van de boven- en ondergrens wordt eerst de gemiddelde range (R) 
bepaald (= 5,06): 
De bovengrens is: Xgem + А2 · R = 468,29 + 0,577 - 5,06 = 471,21 


De ondergrens is: Xgem — A2: R = 468,29 — 0,577 · 5,06 = 465,36 
De factor А? is opgezocht in de tabel bij een steekproefgrootte n = 5: Аз = 0,577. 


2. Bepalen van de controlegrenzen voor de R-kaart 
Gemiddelde range: Ё = 5,06 
Bovengrens: Du. R: 2,115 · 5,06 = 10,70 
Ondergrens: D3 · R: 0. 5,06 = 0 
De controlekaart uit dit voorbeeld is gegeven in figuur 11.4. 
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Fig. 11.4 x en R- kaart voor de gegevens van tabel 11.1 


11.4 Controlekaart voor individuen 


In veel situaties is het niet goed mogelijk om een proces op te splitsen in subgroepen van 
individuen, welke men vervolgens via een Shewhart-controlekaart kan bewaken. Dit is met 
name het geval in batchprocessen waarbij per batch (=serie) een homogene partij wordt ge- 
produceerd. Neemt men van een dergelijke partij meerdere monsters, dan zullen doorgaans 
tussen deze monsters relatief kleine verschillen optreden. De voor controle relevante vari- 
aties zullen echter optreden tussen de batches onderling. Men kan in dit verband gebruik 
maken van ‘moving ranges’. Hierbij wordt de range (R) van 2 of meer (algemeen n) batches 
bepaald, het gemiddelde daarvan is R. Uit R kan nu een schatting van de spreiding (с) van 
het proces worden bepaald via: 
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De waarde van da is afhankelijk van het aantal opeenvolgende batches (n) waaruit R wordt 
geschat, en is in tabel B12 gegeven. 

De controlegrenzen worden berekend, gebruikmakend van de hierboven besproken schat- 
ting van de standaardafwijking 6 uit de moving ranges (R). 


Voorbeeld 2 

In Tabel 11.2 is een voorbeeld gegeven van de berekening van de moving range, ge- 
baseerd op de verschillen van twee opeenvolgende batches. In het voorbeeld wordt de 
relatieve viscositeit bepaald van de productie van een product per batch. 


moving range 
(R) 





Tabel 11.2 Voorbeeld moving ranges 


Oplossing 

də = 1,128 (п = 2), zie tabel B12. 
0,27 

5 = — = 0,24 
1,128 


Voor meting per batch: 


46,9 
target: х = = 4,69 
Bovenste actiegrens: х +30 = 4,69 +3 · 0,24 = 5,41 


Onderste actiegrens: х — 36 = 4,69 — 3 · 0,24 = 3,97 
Voor de spreidingskaart: 

target: R = 0,27 

Bovenste actiegrens: D4 = 3,267 · 0,27 = 0,88 
Onderste actiegrens: : D3 = 0 · 0,27 = 0 
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11.5 Controlekaarten voor attributieve (kwalitatieve) kenmerken 


Onder een attributieve eigenschap van een product wordt verstaan een eigenschap welke 
slechts twee waarden kan aannemen; voorbeelden hiervan zijn: 

— defect / niet defect; 

— te groot / te klein; 

— onderdeel aanwezig / afwezig. 


Attributieve eigenschappen kunnen worden geteld, resulterend in bijvoorbeeld het aantal 
fouten k in een steekproef van omvang n. Voor de controle op niveau van attributieve 
kenmerken kan men gebruik maken van de volgende controlekaarten: 

— controlekaart voor fractie foutieve exemplaren (zgn. p-kaart); 

— controlekaart voor aantal foutieve exemplaren (np-kaart); 

— controlekaart voor aantal fouten (u-kaart). 


Voor het bepalen van de controlegrenzen is de voorwaarde dat het type verdeling, met be- 
trekking tot het aantal fouten in een steekproef, bekend is. Een veel voorkomende verdeling 
in dit verband is de binomiale verdeling voor de fractie p en het aantal foutieve exemplaren 
in een steekproef en de Poisson-verdeling voor het aantal gebeurtenissen. 


Voorbeelden: 

Binomiale verdeling: aantal onjuist afgevulde eenheden op een verpakkingslijn in een 
steekproef van n stuks. 

Poisson-verdeling: gemiddeld aantal fouten per spoel vastgesteld in een steekproef van 100 
spoelen. 


We zullen kort ingaan op de berekening van de controlegrenzen in de verschillende typen 
controlekaarten. 


11.5.1 p-kaart 

Voor het bepalen van een p-kaart geldt de volgende voorwaarde. 

Het aantal foutieve exemplaren is binomiaal verdeeld. De steekproefomvang is n en p is 
target van de fractie foutieve exemplaren. Is dit niet het geval, dan dienen de grenzen te 
worden berekend uit de binomiale verdeling. 


a. {p-kaart: gegeven norm р 


target: p 







Onderste actiegrens: 







Bovenste actiegrens: 
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b. |p-kaart: geen norm gegeven (р is onbekend) 


target: р 
Onderste actiegrens: 


Bovenste actiegrens: 


waarbij: р= + pi 





pi = fractie foutieve exemplaren in de i- de steekproef. 
k = het aantal steekproeven waaruit p wordt berekend. 


11.5.2 np-kaart 


np is het verwachte aantal foutieve exemplaren in een steekproef van n stuks. De lijnen op 
de kaart worden berekend door vermenigvuldiging van de lijnen op de p-kaart met n. 


Stellen we np = с, dan krijgen we: 


a. | np-kaart: gegeven norm с 


target: c 
Onderste actiegrens: 


Bovenste actiegrens: 


b. |np-kaart: geen norm gegeven 


target C 


Onderste actiegrens: 


Bovenste actiegrens: 


k 
waarbij: €= AC 








c; = aantal foutieve exemplaren in de 1-е steekproef. 
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11.5.3 и-Каагё 

и is het aantal fouten рег steekproefeenheid. Dit soort controlekaarten kan nuttig zijn als 
de elementen op de al of niet aanwezigheid van meer dan één eigenschap (in de meeste 
gevallen door verschillende oorzaken foutief zijn) worden onderzocht. 

Voorwaarde: 

Het aantal fouten per steekproefeenheid volgt een Poisson-verdeling. Als het gemiddelde 


aantal fouten u > — is, mogen we de grenzen berekenen zoals aangegeven, waarbij n het 


n 
aantal steekproefeenheden 15. Is dit niet het geval dan moeten de grenzen worden berekend 
uit de Poisson-verdeling. 

De lijnen op de kaart worden als volgt berekend: 


a. | u-kaart: gegeven norm u 


target: u 


Onderste actiegrens: 


Bovenste actiegrens: 


b. {u-kaart: geen norm gegeven 


target: и 





Onderste actiegrens: 


Bovenste actiegrens: 





11.6 Testmogelijkheden bij het voeren van controlekaarten 


Bij Shewhart-kaarten heeft men naast de grafische weergave van controlekaarten, ook moge- 
lijkheden voor het uitvoeren van statistische tests. Met deze tests is het mogelijk bijzondere 
afwijkingen te constateren. 

Deze tests zijn beschikbaar indien: 

— de controlegrenzen de Ze -grenzen zijn 

— de grenzen mogen niet veranderen met de steekproef grootte 


Het doel уап deze tests is, specifieke, niet-toevallige afwijkingen in de steekproef meetwaar- 
den te ontdekken. Het variatiegebied van de meetwaarden is bij deze controlekaart onder- 
verdeeld in gelijke gebieden A, В еп С. Wanneer men van de middelste lijn naar boven of 
beneden gaat komt men achtereenvolgens in gebieden С, B en A. Gebied A ligt dus het verst 
verwijderd van de middelste lijn. Omdat de gebieden even groot zijn, komen de gebieden 
C, B en A overeen met lo-, 20- еп Зо -grenzen. 
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De statisticus Nelson stelde de volgende testmogelijkheden voor. 


Nummer Afwijking of aanwezige trend 


| Een punt ligt buiten gebied A, oftewel buiten de Зо -grenzen, hetgeen duidt 
op een ontregeld proces, waarbij het niveau en/of de spreiding in het proces is 
veranderd. 

2 Negen punten op rij liggen in gebied С, of daarbuiten, aan één kant van de 
middelste lijn of normwaarde. Wat duidt op een verschuiving van het proces- 
gemiddelde. 

3 Zes punten monotoon stijgend of dalend. Er is een trend in het proces, zodat 
het proces dreigt te ontsporen. Ingrijpen is noodzakelijk om te voorkomen dat 
het ‘product’ moet worden afgekeurd. 


4 Veertien punten op rij afwisselen naar boven / naar beneden. Deze zgn. alter- 
nerende reeks duidt op een continue wisseling in het proces. 

5 Twee van drie punten op rij liggen in gebied A of buiten gebied A. Dit komt 
door verschuiving van het procesniveau (vergelijkbaar met test 1) 

6 Vier van vijf punten op rij liggen in gebied B of buiten gebied B. Het proces 
heeft een te grote spreiding. 

7 Vijftien punten op rij in gebied С (onder en boven middelste lijn). Het proces 
heeft een veel kleinere spreiding gekregen. De kwaliteit van het proces is beter 
geworden. 

8 Acht punten op rij aan beide zijden van de middelste lijn, maar niet in gebied 


C. Ook dit duidt op een te grote spreiding in het proces. 


Nelson heeft deze toetsingsvoorwaarden zo uitgekozen, dat de mogelijkheid van een puur 
toevallige ‘uitschieter’ voor alle tests ongeveer even groot is, namelijk P < 5%, overeen- 
komend met de onbetrouwbaarheid o bij de toetsingsprocedure. 

De tests kan men grafisch weergeven als in figuur 11.5. 


11.6.1 Procescapability-specificatie (С, еп С) 

De ‘kwaliteit’ van een product of proces wordt vaak weergegeven door kwaliteitsindices. In 
deze kwaliteitindices komt tot uitdrukking de mate van overeenstemming van het product of 
proces ten opzichte van de opgegeven specificaties van het product of proces. Als een pro- 
ces statistisch beheerst is, dan is het ook mogelijk om vast te stellen tussen welke grenzen 
de kenmerken of parameters van een product zullen variëren, wat betreft de kwaliteitsei- 
genschappen. Een gebruikelijke maat voor de productspreiding, van een normaal verdeelde 
kwaliteitseigenschap, is het ‘proces capability interval’. We weten reeds dat bijna alle meet- 
waarden van een normaal verdeeld proces zich bevinden tussen u — Зс en u + Зо, waarbij: 
u = procesgemiddelde (= normwaarde van het proces) 

с = processtandaardaf wijking (= processpreiding) 
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Test 1: Een punt beneden gebied А 


UCL 














LCL 








Test 3: Zes punten op een rij 
monotoon stijgend of dalend 





UCL 


и, СӘ С 
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Test 5: Twee van drie punten op een rij 
in gebied A of lager 


UCL 














Test 7: Vijftien punten op een rij in 
gebied C (onder en boven 
de normlijn) 
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Test 2: Negen punten op een rij 
in gebied C of lager 
UCL 





Ho 








LCL 





Test 4: Veertien punten op een rij 
afwisselend naar boven/ 


naar beneden 
UCL 











Ho 








LCL 





Test 6: Vier van vijf punten op 
een rij in gebied B of 


lager 
UCL 
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Test 8: Acht punten op een rij aan 
beide zijden van de norm- 
lijn, maar niet in gebied C 
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Het procescapability-interval is dan ook gedefinieerd als [и — 30, и + 30 |. Dit interval zal 
99,7% van de individuele producten omvatten. 

Het is uiteraard van belang dat de capability van een proces en de productspecificaties op 
elkaar zijn afgestemd, dit geldt zowel t.a.v. het gemiddelde, als ook t.a.v. de spreiding. Hier- 
toe zijn verhoudingsgetallen ontwikkeld, die de mate van overeenstemming tot uitdrukking 
brengen tussen wat men moet maken (= de specificatie) en wat men kan maken (= proces 
capability). Hiervoor zijn de laatste jaren de volgende twee capability indices naar voren 


gekomen: 


Index voor de spreiding 

Bij de afspraken tussen een leverancier en de klant worden specificaties voor bepaalde pa- 
rameters of kenmerken van het product afgesproken. Meestal wordt dan een onder- en een 
bovengrens vastgesteld, waarbinnen de waarde van de betreffende parameter zal moeten 
liggen. Daarnaast hebben we de natuurlijke variaties in het proces, waardoor een bepaalde 
spreiding in de waarde van de parameter zal ontstaan, wat tot uitdrukking komt in de stan- 
daardafwijking с. Indien de uitkomsten уап de parameter een normale verdeling volgen, 
dan is de totaal mogelijke spreiding (=capability) gelijk aan бо. Er is nu een index ontwik- 
keld (= С»), die de mate van overeenkomst aangeeft tussen de toelaatbare spreiding еп de 
werkelijke spreiding: 


_ toelaatbare spreiding (= specificatie) USL — LSL 


ke (11.2) 


werkelijke spreiding (= capability) бо 


USL = Upper Specification Limit (bovenste specificatiegrens) 
LSL = Lower Specification Limit (onderste specificatiegrens) 
с = standaardafwijking van de parameter van het lopend proces 


Is de totale spreiding уап de parameter (= бо) precies gelijk aan het verschil tussen de 
onder- en bovengrens van de specificatie, dan is de Cp = 1. Elke verandering in het proces 
en dus verandering in de spreiding van het kenmerk of parameter komt in de Cp- waarde 
naar voren. 


Index voor centrering en spreiding 

Naast de spreiding wil men ook vaak iets kunnen zeggen over de centrering van het pro- 
ces. Dat wil zeggen hoe goed het gemiddelde van de parameter ligt tussen de afgesproken 
onder- en bovengrens. Om dit vast te leggen heeft men de index voor centrering (= Ск) 
vastgelegd. De Ск is gelijk aan de kleinste waarde van: 


u — LSL USL — u 
30 30 
u = gemiddelde van de parameter van het lopend proces 
с = standaardafwijking van de parameter van het lopend proces 
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Ligt u precies in het midden tussen de onder- en bovengrens van de afgesproken specificatie 
en de totale spreiding (бо) komt precies overeen met het verschil tussen onder- en boven- 
grens, dan is de Cpg = 1. Alle verschuivingen van het gemiddelde en/of veranderingen in 
de spreiding van de parameter komen tot uitdrukking in de Cpg- waarde. 

Bij Cp- en/of Cpg- waarden kleiner dan 1 heeft men een proces dat niet voldoet aan de 
afgesproken specificaties. Als de Cp- en/of Cpg- waarden groter zijn dan 1, dan kan het 
proces in ruime mate voldoen aan de afgesproken specificaties. In de praktijk wordt vaak 
gesteld dat de Cp- en Cpg- waarden groter dan 1,3 moeten zijn. Er kunnen dan kleine 
verschuivingen in het proces plaatsvinden, zonder dat dit gevolgen heeft voor de kwaliteit 
van het product (voldoen aan de afgesproken specificaties). In een aantal voorbeelden zullen 
we het bovenstaande toelichten. Voor de eenvoud nemen we een ‘gestandaardiseerd’ proces, 
waarbij de specificaties voor de ondergrens en bovengrens resp. zijn vastgelegd op -3 en 
+3. 


Voorbeeld 3 

Als eerste voorbeeld nemen we een proces, waarvan de spreiding van de parameter juist 
goed is (= gelijk aan de specificatie) en bovendien precies goed is gecentreerd. In figuur 
11.6 is de controlekaart van een dergelijk proces weergegeven. 














USL(= +3) 
U= Ho 
USL(= -3) 


Fig. 11.6 Proces met Cp = Cpk = 1 


USL-LSL _ +3—(—3)_6 


Весь = = ===————— = еш ] 
60 6x1 6 
USL — 3—0 — LSL 
Voor de Cpg nemen we de kleinste waarde van dn „ШИ de = 1 en ===: == 
30 3-1 30 
0 — (—3) 
= =l, Dus Сш = 1. 


Auel 
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Als het procesgemiddelde en de processpreiding van de specificaties gaat afwijken, dan 
vindt men dit direct terug іп de waarden voor de Cp en de Cp. Een aantal typerende 
gevallen is in de volgende voorbeelden weergegeven. 


Bij het proces van het vorig voorbeeld is de centrering gelijk gebleven, maar de processprei- 
ding is kleiner geworden. (o „ieuw = 0,7). De capability-indices zijn nu respectievelijk: 





3 —(—3 
p= Pel a 1,43 
6 - 0,7 
— 0— (—3 
С рк is kleinste waarde van z = 1,43 en SE = ЯЗ, 


Dus: Cp = 1,43 en Cpk = 1,43 | 
In figuur 11.7 is de controlekaart weergegeven met de gegevens van dit voorbeeld. 


USL 
3 2.1 
H = Ho 
"A 
3 
USL 


FO 11E Proces met Cp en С.к = 1,43 


Voorbeeld 4 
Stel dat het procesgemiddelde 2 eenheden ten opzichte van de oorspronkelijke waarde 
naar boven is verschoven, bij gelijkblijvende processpreiding. Dus и = Hg+2eno = 1. 
De capability-indices zijn nu respectievelijk: 
ER. кш 3—63). B 1 

р 6-1 6 
Cpk = BE — | =0350[ +з == - = 1,67. Dus Cpg = 0,33 (kleinste van de 
twee waarden). 
Dus: Cp = len Cpk = 0,33. 
In figuur 11.8 is het proces van dit voorbeeld grafisch weergegeven. 


We geven ten slotte een voorbeeld, waarbij de centrering van het proces goed is, maar de 
standaardafwijking 2 keer zo groot is geworden (u = ug en o = 2 eenheden). 
De capability-indices voor dit proces worden: 
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3 
USL 
1 
u 
3 
Ho 
5 
LSL 
Fig. 11.8 Proces met Cp = 1 en Cpk = 0,33 
6 (02) 6 
Cp == = 0,5 
g 6-2 12 
Le Gg kd Ae 
Сок = = 0,5 of йз 
3.2 3:2 


Dus: Cp = Cpk = 0,5 

We zien dat de centrering goed is, maar doordat de spreiding groter is geworden, is toch 
de Cpg kleiner geworden. De Cpg- waarden reageren op veranderingen in niveau en/of 
spreiding van het proces. 

In figuur 11.9 is het proces met Cp = 0,5 en Cat = 0,5 weergegeven. 


» 


USL nd 





LSL — 


Fig. 11.9 Proces met Cp = 0,5 en Срк = 0,5 
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Opgaven 


1. 


Voor een procescontrole wordt regelmatig een smeltpuntsbepaling uitgevoerd. Bij ееп 
normaal verlopend proces is het gemiddelde smeltpunt m = 89 °C, met standaardaf- 
wijking s = 1,5 °C. 

De smeltpunten volgen hierbij een normale verdeling. 

Stel van dit proces een controlekaart op voor het gemiddelde van 3 metingen. 


Teneinde de viscositeit van een grondstof te controleren wordt dagelijks uit de productie 
een steekproef van vier monsters genomen. Van 20 dagen zijn de 20 x 4 uitkomsten in 
onderstaande tabel vermeld (in seconden). 





Maak van deze gegevens een controlekaart voor steekproefgemiddelden en standaard- 
afwijkingen van 4 waarnemingen (X-s-kaart). 


We gaan er nu van uit dat de viscositeitscontrole van bovengenoemde grondstof (zie 
opgave 2) wordt gedaan, door per dag slechts één monster te nemen. Hierbij zijn de 
volgende uitkomsten verkregen: 


ESESESESEKESECSESESESER 


Maak van bovenstaande gegevens een x — R-kaart. 
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4, Een product wordt afgeleverd in zakken van 50 kg. Om het afvulproces te controleren. 
wil men een controlekaart gaan inrichten. Gedurende een periode van 20 dagen, waarin 
het afvulproces redelijk beheerst is, neemt men per dag een steekproef van 3 zakken. 
Van elke zak wordt het gewicht bepaald. De volgende resultaten zijn verkregen: 


deg meetuitkomsten (in kg) 


1 
2 
3 
4 
5 
6 
f 
8 
9 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 


N 
О 





Maak met behulp van bovenstaande gegevens een x-s- kaart voor steekproeven van 
п = 4. 


5. Bij de serieproductie van een artikel wordt regelmatig ееп exemplaar gecontroleerd. 
Om nu te komen tot een controlekaart voor deze productie, neemt men gedurende 20 
weken steekproeven van ca 200 exemplaren per week. In elke steekproef wordt het aan- 
tal exemplaren, dat niet aan de specificaties voldoet, genoteerd. De volgende gegevens 

zijn hierbij verkregen: 
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aantal onderzochte 


week 
exemplaren 

| 210 
2 198 
3 196 
+ 210 
5 190 
6 200 
7 210 
8 220 
Ө 200 
10 218 
11 206 
12 196 
13 190 
14 196 
15 198 
16 206 
17 210 
18 204 
19 196 
20 200 
totaal 4054 


aantal 
foutieven 


12 
21 
18 


327 


fractie 


foutieven 


0,0571 
0,1060 
0,0918 
0,1095 
0,0368 
0,0900 
0,0619 
0,1136 
0,0600 
0,0688 
0,0922 
0,0918 
0,1210 
0,0459 
0,0656 
0,0679 
0,0809 
0,0980 
0,1071 
0,0450 


1,6115 
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Construeer, met behulp van bovenstaande gegevens ееп p-kaart. (Voor n neemt теп 


de gemiddelde steekproef grootte). 


Construeer met behulp van de gegevens van opgave 5 een np-kaart. 


Een product wordt samengesteld uit verschillende componenten. Bij dit samenstellen 


kunnen meerdere fouten optreden. De productieleiding wil nu een controlekaart voor 
het gemiddeld aantal fouten. Uit de productie neemt men daartoe over langere tijd 
20 steekproeven van elk 10 exemplaren. Per steekproef telt men het aantal fouten en 
berekent vervolgens het gemiddeld aantal fouten per steekproef. De uitkomsten staan 


in onderstaande tabel: 
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steekproef aantal fouten 


steekproef 
17 1,7 
14 1,4 
6 0,6 
23 23 
7 0,7 
11 ы] 
+ 0,4 
13 1,3 
18 1,8 
2] 2.1 
5 0,5 
14 1,4 
8 0,8 
9 0,9 
13 б 
7 0,7 
3 0,3 
19 1,9 
17 157 
2] CH 
Zh 25,2 


gemiddeld aantal fouten per 


Construeer een и-Каагі met behulp van bovenstaande gegevens 


Met een leverancier zijn de volgende tolerantiegrenzen afgesproken: 
Bovengrens (U SL) = 2,650 mg en ondergrens (LSL) = 2,350 mg. 
Om te controleren of het proces hieraan voldoet, neemt men 20 steekproeven vann = 4. 


De berekende procesparameters hieruit zijn: 


procesgemiddelde u = 2,500 mg 
processpreiding o = 44,2 mg 


Bereken de Cp- en de Cpg-waarden. Is de centrering en/of de spreiding van het proces 
goed? 


De procesparameters van een proces, bij 20 steekproeven van л = 4 zijn: 


procesgemiddelde u = 255 
gemiddelde spreidingsbreedte R = 11 
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10. 





Als de Cpg waarde 1,2 moet bedragen, wat moeten de gespecificeerde tolerantiegrenzen 
zijn bij een precies goed gecentreerd proces? 


Van een proces zijn de volgende gegevens bekend: 

Target L= 32,5 

Spreiding: с = 2,7 

Het proces wordt gecontroleerd door steekproeven te nemen уап л = 5. 
De gespecificeerde grenzen bedragen: USL = 35,6 en LSL = 28,5. 

— Bereken de Cp- еп de Cpg-waarden. 

— Hoeveel procent van de productie valt buiten de grenzen? 








Bijlage A Statistiek met EXCEL 


Microsoft EXCEL beschikt over tal van statistische functies. Hoewel EXCEL niet in eerste 
instantie ontworpen is als een softwarepakket voor statitistische programmatuur (zoals bij 
SPSS, SAS, Minitab wel het geval is) biedt het ruim voldoende toepassingsmogelijkheden 
voor hoger opgeleiden die niet als gespecialiseerd statisticus zullen werken, maar slechts 
af en toe statistiek zullen gebruiken. Twee grote voordelen van EXCEL ten opzichte van 
statistische programmatuur zijn dat het gemakkelijk (en goedkoop) beschikbaar is en een- 
voudig. Vrijwel alle in dit boek genoemde formules en tabellen kunnen op eenvoudige 
wijze gebruikt worden. In deze bijlage geven we een opsomming van de mogelijkheden 
van EXCEL ten behoeve van de technieken in de verschillende hoofdstukken van dit boek. 
In de meeste gevallen zullen we een voorbeeld geven als illustratie. Een aantal voorbeelden 
zijn uit de hoofdstukken van dit boek afkomstig. 


А.1 Inleiding 


We gaan ervan uit dat de lezer enigzins bekend is met het werken in spreadsheets. Is dit niet 
het geval dan raden we aan dat de lezer zich eerst vertrouwd maakt met de basishandelingen, 
zoals het werken met de muis, het gebruik van de werkbalken, het invoeren van gegevens 
in cellen (en het daarbij behorende format), het verschil tussen relatieve en absolute cel- 
adressen, het kopiëren en plakken van kolommen met gegevens en functies, het opmaken 
van een worksheet enzovoorts. In deze bijlage worden deze handelingen soms gedetailleerd 
beschreven, maar zeker niet altijd. 










sd | 





titelba Pe 
[Г] 1:5 81847. 
grafiekbalk Л 


standaardwerkbalk | a. 





Functie-activeerknop actieve cel formulevenster 


Fig. A1 Gedeelte van het bureaublad 
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Het moge bekend zijn dat EXCEL een zeer gebruiksvriendelijke help-functie heeft. Er zijn 
verschillende versies van EXCEL in omloop. De versies EXCEL 97 en EXCEL 2000 ver- 
schillen nauwelijks. Voor de in deze bijlage genoemde toepassingen zijn er zelfs helemaal 
geen verschillen tussen deze laatste twee versies. In figuur Al zien we een gedeelte van 
het bureaublad met de belangrijkste begrippen. We kunnen het bureaublad zelf aanpassen 
onder Beeld en dan Werkbalken (aanvinken welke van toepassing zijn). 


EXCEL heeft standaard een groot aantal statistische functies, waarvan we er een aantal 
zullen laten zien. Bovendien beschikt EXCEL over een groep functies onder de noemer 
‘Gegevensanalyse’, die meestal nog niet direct bij de installatie zijn inbegrepen. От deze 
te activeren, klik op de werkbalk bij Extra en vervolgens bij Invoegtoepassingen. Vink 
dan in elk geval ‘Analysis ToolPak’ en ‘Analysis ToolPak-VBA’ aan en activeer met OK. 
In het menu Extra is nu Gegevensanalyse toegevoegd (zie figuur A2). 


Gegevensanalyse 






{multifactoriële variantie-analyse met herhaling д 
{Multifactoriële variantie-analyse zander herhaling | Annuleren | 
{Correlatie 

1Cowvariantie 

{Beschrijvende statistiek, 
|Expanentiële demping 

|F-toets voor twee steekproeven 


{Fourier-analyse 
[Histogram 24 





Fig. A2 Extra beschikbare functies voor gegevensanalyse 


Van deze nieuwe mogelijkheden zullen we er een aantal bekijken. De functies die in EXCEL 
reeds aanwezig zijn, kunnen we zichtbaar maken door bijvoorbeeld op het =-teken naast het 
formulevenster te klikken. 

Het resultaat is: 


_ GEMIDDELDE |Ж v = 
Fig. A3 


op de formulebalk, met links de laatst gebruikte functie (hier: GEMIDDELDE) waarna we 
onder het pijltje een overzicht krijgen van alle beschikbare functies. Onder ‘Meer functies’ 
kunnen we het overzicht krijgen van alle statistische functies, waarover EXCEL beschikt. 
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Functie plakken _ S 





Functiecategorie: Functienaam: 








{Laatst gebruikt 

{Alles 
[Financieel 
(Datum en tijd 
wiskunde en trigonometrie 









| |AANTAL.ALS | 
| |AANTALLEGECELLEN — 


| BETA. VERD 

| [BETROUWBAARHEID 
| JBINOMIALE. VERD 
ICHLEWADRAAT 
_ICHLKWADRAAT INW 
| {CHLTOETS 


AANTAL(waarde 1дчаагЧе?2];...) 


Telt het aantal cellen dat getallen bevat en het aantal getallen in de 
argumentenlijst, | 


(Zoeken en verwijzen 
(Database 





Annuleren 3 





Fig. A4 


De functie die we nu aanklikken, verschijnt in het formulevenster. Een andere manier om 
functies te activeren is te klikken op de f‚-knop in de werkbalk (naast het У '-teken). 


Beschrijvende statistiek 


In de hoofdstukken 1, 2 en 3 van dit boek hebben we de beschrijvende statistiek behandeld. 
We zullen nu aan de hand van voorbeeld 1 uit hoofdstuk 3 zien hoe we een steekproef of 


populatie kunnen beschrijven. 


In voorbeeld 1 hadden we 50 afgeronde gewichten. Voorzien van een label (‘gewicht’) 
plaatsen we deze gewichten in een kolom. Voor een beter overzicht kunnen we de 50 getal- 
len beter sorteren (bijvoorbeeld bij Data, Sorteren). Een gedeelte (de eerste 7 gesorteerde 


waarnemingsuitkomsten) ziet er ongeveer zo uit: 


— rn / 

o s 

3 DA 
CR 
B 
Sp 


=4 


С CO) 
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We kunnen het snelst de 50 waarnemingsuitkomsten analyseren door onder Extra en Ge- 
gevensanalyse ‘Beschrijvende statistiek’ te activeren. 








Beschrijvende statistiek S 















_ Invoerbereik: 





| Se Annuleren | 
| Groeperen per: (+ Kolom Se 
| C Rij 





| {2 Labels in de eerste rij 


| Ge Utvoerberek 
| С“ Nieuw tabblad werkblad: 





| C Nieuwe werkmap 


№ Samenwattingsinfo 





| Г Betrouwbaarheid van gemiddelde: 


Г Ор k-1 па grootste waarde: 





Г Opk-1 na Kleinste waarde: | 





Fig. A6 


Voor het ‘Invoerbereik’ markeren we met de cursor de gehele A-kolom t/m de laatste waar- 
nemingsuitkomst. Denk erom ‘Labels in de eerste rij’ aan te vinken (op de eerste rij staat 
een label, geen waarnemingsuitkomst). Onder uitvoerbereik selecteren we met de muis 
bijvoorbeeld cel ВІ. Vink ook ‘Samenvattingsinfo’ aan, zodat het dialoogvenster er als 


hierboven ziet. 


Na het activeren (OK) ontvangen we de samenvattingsinformatie van alle waarnemings- 
uitkomsten (maak eventueel kolom B en kolom C breder om het resultaat beter te kunnen 


zien): 
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Kurtosis en scheefheid zijn niet behandeld in dit boek. Maar uit de rest van de informatie 
kunnen we veel opmaken. Nu nog de grafiek. Dit kunnen we EXCEL direct en geheel zelf 
laten doen onder Extra, Gegevensanalyse, ‘Histogram’. Onder ‘Invoerbereik’ selecteren 
we weer kolom Al t/m A51, klik Labels wederom aan, klik ook ‘Grafiek maken’ aan en 
laat de uitvoer (Uitvoerbereik) beginnen bij cel D2 (klik de cel aan). Maak het “Verzamel- 
bereik’ leeg. Na uitvoeren (OK) krijgen we een niet al te fraaie frequentieverdeling, met 


bd 
gewicht 


Gemiddelde 
atandaardfout 
Mediaan 

Modus 
Standaarddeviatie 
oteekproefvariantie 
kurtosis 
ocheefheid 

Bereik 

МИТА 
Maximum 

Som 

Aantal 


Fig. A7 





o 


5 959900015 
35 52040616 
1.1937 1066 

062090393 


— 
E 


51 
111 
4705 
50 


bijbehorend histogram (we laten alleen de frequentieverdeling zien): 


We kunnen ook zelf een (mooiere) klassenindeling maken en wel als volgt. 


werramelbereik 








85 28571429 
89 57142857 
93 85714266 
08 14285714 
102 4285714 
106 7142857 


eer 


Fig. A8 
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Uit de verkregen gegevens kunnen we opmaken dat de Range 30 is (111-81). Volgens de 


formule 
R 30 


= — = —— 7 4,2 
vn v5 ` 

kunnen we besluiten even brede klassen te maken met breedte 5 (4,2 afgerond naar boven). 
Er zijn dan 7 klassen nodig. In EXCEL moeten we nu de bovengrenzen van deze klassen 
in een kolom zetten. We kiezen analoog aan het voorbeeld in hoofdstuk 3 voor de boven- 
grenzen 84,5 - 89,5 - 94,5 - enzovoorts. Doe dit als volgt: plaats de label ‘bovengrens’ 
bijvoorbeeld in cel B36, plaats daaronder 84,5, daaronder 89,5, markeer de laatste twee cel- 
len (B37 en B38), ga met de cursor in het gemarkeerde gebied staan totdat het plusteken 
verschijnt en sleep naar beneden totdat alle bovengrenzen gemaakt zijn. Op een schone 
plaats bijvoorbeeld vanaf cel B27 kunnen desgewenst de ondergrenzen geplaatst worden. 
Neem aan dat de 7 bovengrenzen (inclusief label bovengrens) staan in de cellen B36 t/m 
B43. Ga nu naar Extra, Gegevensanalyse, Histogram en voer als volgt in: 






‚ Invoerbereik: 





Annuleren 1- 





Yerzamelbereik: 





E Labels 
rUitwoeropties nn en 


| {e_Uitvoerbereik: 





| С Nieuw werkblad: 
| C Nieuwe werkmap 


| Г ор frequentie sorteren 


| Г Cumulatief percentage | 
| М Grafiek maken | 





Fig. A9 





Na OK verschijnt de frequentieverdeling zoals we die willen hebben, plus een histogram: 
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ondergrens klasse bovengrens klasse Frequentie 

ШЕ 04 5 2 
dd 5 dS 10 
dd 5 dd 5 13 
94 5 g9 Б 20 
УУ 5 104 5 2 
104 5 109,5 1 
109 5 114,5 2 

Мерг 0 

Рід. А10 


Het histogram ziet ег misschien niet zo fraai uit (te lage staven bijvoorbeeld). Door met 
de cursor op diverse plaatsen in het histogram te gaan staan, kan het formaat vergroot of 
verkleind worden door de rand te verslepen. Het resultaat zou er bijvoorbeeld zo uit kunnen 
zien: 


Histogram 


Frequentie 


wl 


o 2 o © 
а" déi ër 


| en у A 
ci er gr ar Aë 


N 


bovengrens klasse 





Fig. A11 


Er kan van alles aan het histogram veranderd worden. Steeds door het gedeelte dat we 
willen veranderen te selecteren met de muis, vervolgens met de rechtermuisknop klikken 
en de veranderingen (titel, legenda, kleuren, enzovoorts) aan te brengen. In onderstaande 
figuur is bijvoorbeeld de breedte van de staven (klik op de rechter-of linkerrand (niet in het 
midden!) van een staaf totdat deze rondom gemarkeerd wordt, rechtermuisknop indrukken, 
Gegevenspunt opmaken, Opties, Breedte tussenruimte op nul stellen) aangepast en de titel 
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(Klik op titel Histogram in vorige grafiek, totdat de titel rondom gemarkeerd wordt, waarna 
de tekst te veranderen is) veranderd. We raden de lezer aan met het aanpassen van het 
histogram zelf te experimenteren. 


Gewichtsverdeling 


Frequentie 


B Frequentie 


bovengrens klasse 





Fig. A12 


Ook de soort grafiek kan eenvoudig veranderd worden. We kunnen kiezen uit vele soorten, 
bijvoorbeeld de polygoon. We moeten de klassenbovengrenzen dan wel vervangen door de 
klassenmiddens. Op de categorie-as (horizontale as) zijn daartoe de maatstreepjes aange- 
past. In het tekengebied zijn ook rasterlijnen ingevoerd. 


Gewichtsverdeling 






Frequentie 












qr 102 107 112 
klassenmiddens 


87 92 
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Tot zover de meeste gebruikte functies van de beschrijvende statistiek. Overige functies 
die in dit kader eventueel gebruikt kunnen worden, zijn GEMIDDELDE, STDEV (stan- 
daardafwijking steekproef), STDEVP (standaardafwijking populatie), MEDIAAN, MO- 
DUS, KWARTIEL en PERCENTIEL. 


A.3 Kansberekeningen 


In hoofdstuk 4 van het boek werden de kansregels uiteengezet. Bij het berekenen van kansen 
kon soms handig gebruikgemaakt worden van de formules voor permutaties, combinaties 
en variaties. De functie PERMUTATIES zit onder ‘Statistische functies’. De formule voor 
COMBINATIES zit in EXCEL onder “Wiskundige en trigonometrische functies’. 

Met PERMUTATIES(N;M) wordt het aantal manieren berekend waarop M uit N objecten 
kunnen worden gepermuteerd. Hierbij tellen alle mogelijke volgorden mee. 

Met COMBINATIES(M;N) wordt het aantal rangschikkingen van М uit N berekend zonder 
de volgorde in acht te nemen. COMBINATIES(15;2) geeft als antwoord 105 en PERMU- 
TATIES(15;2) geeft als antwoord 210. Dit is tevens het aantal variaties van 2 uit 15. 


A.3.1 Discrete kansverdelingen 
We kunnen in EXCEL zowel zelf geformuleerde discrete kansverdelingen invoeren en door- 
rekenen als de bekende kansverdelingen zoals de binomiale verdeling, de hypergeometri- 
sche verdeling en de Poisson-verdeling. 
We geven eerst een voorbeeld van een zelf ingevoerde verdeling en nemen daarvoor het 
voorbeeld uit paragraaf 5.2, betreffende de som van de ogenaantallen bij een worp met twee 
dobbelstenen. Stel dat we de kans willen berekenen dat de som tussen 6 en 8 ligt (grenzen 
meegerekend), dus: 

P(6< К <8) 


De betreffende kansverdeling voeren we in twee kolommen in. De functie KANS vraagt 
om de volgende gegevens (de breuken in de tweede kolom blijven breuken door de celei- 
genschappen zodanig in te stellen: markeer de cellen, rechts klikken en Celeigenschappen 


RB 


instellen op ‘breuken’): 





1 К kans 

2 2 1/36 
ER з 118 
4 A 112 
5 5 1/5 
dë 6 5/ЗБ 
т 16 
8 S 5/36 

и 

; 9 | g 1/9 
10. 10 1/12 
111 17 118 
D 12 136 


Fig. А14 
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x-bereik: hiervoor moeten de waarden 2 t/m 12 met de cursur gemarkeerd worden, de 

bijbehorende cellen (A2:A12) verschijnen in het venster. Om te kunnen markeren, kunnen 

we het beste het dialoogschermpje van KANS even verstoppen door te klikken op het knopje 
met het pijltje erin rechts in het venster van het x-bereik). Na OK komt het dialoogscherm 
weer terug). 

kansbereik: hiervoor moeten de bijbehorende kansen gemarkeerd (B2:B 12) worden. 

ondergrens: voer 6 in. 

bovengrens: voer 8 in. 

Na activering (OK) verschijnt het antwoord (hier 0,4444) in de cel waar de cursor op dat 

moment staat. 

Wanneer we de verwachtingswaarde en de variantie (of de standaardafwijking) van een 

discrete kansvariabele willen bepalen, is er wat meer EXCEL-kennis nodig. We zullen dit 

laten zien aan de hand van het voorbeeld van de som van de ogenaantallen van de twee 
dobbelstenen. 

We gebruiken de formules u = У P(K = ki) епо? = Y (ki — U) P(K = ki) uit 

hoofdstuk 5 en gaan daarmee (uitgaande van de gegevens die zojuist in de A- en de B- 

kolom zijn ingevoerd) als volgt te werk. 

— Geef de tekst ‘gemiddelde’ in cel СІ en de tekst ‘variantie’ in cel D1. 

— Selecteer cel C2 en typ een =-teken (EXCEL weet nu dat er een formule aankomt). 

— Ga naar cel A2, klik met de linkermuisknop (er verschijnt een relatief adres na het =- 
teken, want er zit geen $-teken in), plaats een maal-teken (*), verplaats de cursor naar cel 
B2 en klik wederom links. In cel C2 hoort nu de formule =А2*В2 te staan. Met Enter 
wordt dit product berekend. 

— Kopieer nu de formule in cel C2 naar de rest van kolom C. De makkelijkste manier 
is: ga op de rand van cel C2 staan tot het +-teken (het dunne, niet het dikke plusteken!) 
verschijnt en sleep nu naar beneden met de linkermuisknop (we bereiken hetzelfde onder 
Doorvoeren in het menu Bewerken). 

— Ten slotte worden alle producten in kolom C opgeteld door op het -teken te klikken, 
staande in cel C13, gevolgd door Enter. 


Het resultaat moet 7 zijn, zoals verwacht. 

De variantie berekenen we als volgt. 

— Ga naar cel D2 en typ een =-teken, gevolgd door een linker haakje (.. 

— Ga naar cel ВІ, klik links, typ een minteken. 

— Nu moet и ingevuld worden. Deze waarde staat in cel C13. Ga dus naar cel C13. Wan- 
neer we cel C13 direct zouden kopiëren, zou een relatieve waarde verschijnen: deze ver- 
andert mee als we gaan kopiëren. Er moet een absolute waarde (constant) verschijnen. 
De makkelijkste manier om dit te bereiken, is met de functietoets F4. Na het minteken 
in cel BI komt nu $C$13 te staan. 

— Sluit nu af met een haakje, kwadrateer (72), plaats een maal-teken en klik links op cel 
B2. Sluit af met Enter. 

Kopieer nu cel D2 naar de overige cellen in kolom D en sommeer. 
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Het resultaat moet er ongeveer zo uitzien (merk op dat alle cellen breuken bevatten, in het 


algemeen hoeft dit natuurlijk niet): 
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A.3.2 De binomiale verdeling 
Voor het werken met de binomiale verdeling beschikt EXCEL over de functie BINOMI- 
ALE. VERD. 






| Kans-gunstig 10,3 


сент | а 





Geeft als resultaat de binomiale verdeling. 


Aantal-gunstig is het aantal gunstige uitkomsten in een experiment. 





Resultaat formule = 0,035483132 annuleren | 





Fig. A16 


De aanroep van deze functie lichten we toe aan de hand van voorbeeld 16 uit het boek. 
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Het ging hierbij om de vraag hoe groot de kans is dat iemand minstens drie prijzen wint, 
wanneer hij 20 loten koopt. Voor elk lot geldt dat de kans op een prijs 0,3 bedraagt. We 
berekenen daartoe de kans dat iemand hoogstens twee ‘successen’ boekt en passen hierop 
de complementregel toe. Zoals uit figuur A16 blijkt, moet worden ingevuld: 
Aantal-gunstig = het aantal successen (=2) 

Experimenten = de steekproef grootte (=20) 

Kans-gunstig = de fractie (0,3, geen decimale punt maar een komma, althans in de ne- 
derlandse versie van EXCEL). Bij cumulatief vullen we WAAR in, immers we berekenen 
P(K < 2), dit is een cumulatieve kans. 

Het antwoord verschijnt ook op de plaats waar de cursor staat (0,035483132), zodat de 
gevraagde kans volgens de complementregel ongeveer 0,9646 bedraagt. 


A.3.3 De hypergeometrische verdeling 

Bij steekproeven zonder teruglegging uit kleine populaties (niet-constante fractie) is het 
aantal successen hypergeometrisch verdeeld. EXCEL heeft hiervoor de beschikking over 
de functie HYPERGEO.VERD. Als voorbeeld van een toepassing hiervan nemen we voor- 
beeld 20 uit hoofdstuk 5. 

In een partij van 40 computers zitten 3 defecte. Wanneer men uit deze partij zonder terug- 
legging 2 computers neemt, wat is dan de kansverdeling van het aantal defecte computers 
in de steekproef”? Het kenmerk waar in de steekproef op wordt gelet is dus ‘defect’. 

Bij aanroep van de functie HYPERGEO.VERD wordt gevraagd: 

Steekproef-gunstig = aantal defecte computers in de steekproef (hier 0, 1 of 2). 
Grootte-steekproef = 2 (spreekt voor zichzelf). 

Populatie-gunstig = het aantal defecte computers in de populatie (=4). 

Grootte-populatie = 40 (spreekt voor zichzelf). 

We rekenen de gevraagde kans voor К = 0 uit, voor andere waarden van К gaat het net 
zo. Het antwoord verschijnt ook in de cel waar de cursor op dat moment in de spreadsheet 
staat. 


-HYPERGEO, VERD ——- 
teekproef-gunstig | 








(rootte-steekproef |2 
‚ Populatie-gunstig | 


Grootte-populatie 


= 0,507692308 
Geeft als resultaat де hypergeometrische verdeling, 


Grootte-populatie 15 de grootte van de populatie. 









Resultaat formule = 0, 507632306 ОК Annuleren 


Fig. A17 
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A.3.4 De Poisson-verdeling 

Voor de Poisson-verdeling beschikt EXCEL over de functie POISSON. We zullen laten zien 
hoe het gemakkelijkst een Poisson-verdeling gegenereerd kan worden. We nemen daarvoor 
voorbeeld 24 uit hoofdstuk 5. Het Poisson-verdeelde kenmerk is hier het aantal telefoon- 
gesprekken dat per uur doorkomt. Gegeven is dat dit gemiddeld 4 bedraagt, waarmee de 
verdeling vastligt. Hoe de verdeling eruitziet, bepalen we als volgt. 


Geef in cel Al de tekst k en in cel B1 de tekst P(K = К). 

Typ in cel A2 het getal О en in cel A3 het getal 1. 

Vul kolom A nu met oplopende waarden, bijvoorbeeld door cel Al en A2 gezamen- 
lijk te markeren en door het slepen van het +-teken (dat verschijnt op de rand van de 
gemarkeerde cellen) de getallen 2, 3, 4,...., 15 te genereren. 

Plaats de cursor in cel B2 en roep de POISSON-functie aan. Bij de waarde van X mar- 
keren we de cellen A2 t/m А17 in, voor het Gemiddelde geven we het getal 4 (gegeven) 
in en vul bij Cumulatief ONWAAR in. Na OK verschijnt in cel B2 het getal 0,018316. 
Vanaf cel B2 kunnen we nu met het plusje naar beneden slepen en zien de Poisson- 
kansen verschijnen. Controleer zelf of de som vrijwel 1 15 (we zouden nog even door 
kunnen gaan vanaf k = 16 om te bereiken dat de som van alle kansen daadwerkelijk 1 


iS). 


Brongegevens E E -~ 2] x| 





P(K=k) 





0 1 2 34 5 6 7 & A 10 U 12 13 14 15 








=glad1 !$B$2:$B$17 





| Waarden: 








Labels categorieas (1 =В|ай1!фА$2:$А$17 mt 
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Voltooien | 





| Volgende > 








Fig. A18 


















































284 Statistiek met EXCEL 





— Ga nu ergens ор een open cel staan en activeer de Grafiek-wizard (gekleurde histogram- 
ikoon) in de werkbalk. Selecteer Kolom en klik naar het volgende scherm. 

— Klik op Reeks en vervolgens Toevoegen. 

— In het venster Naam kan P(K = К) vermeld worden. 

— In het venster Waarden komt de kolom B2:B 17 (selecteren) 

— In het venster Labels categorie x-as komt de kolom А2:А17 (selecteren). Het scherm 
Brongegevens ziet er nu uit als in onderstaande figuur. 

— Daarna kan de Wizard voltooid worden. 


A.3.5 De normale verdeling 

Van de continue kansverdelingen is natuurlijk vooral de normale verdeling van belang. 
Voor een algemene normale verdeling zijn twee functies te gebruiken. 

Met NORM.VERD kan direct de kans berekend worden dat een normaal verdeelde (ge- 
middelde u en standaardafwijking с) variabele X ееп waarde heeft kleiner dan x. Een 
cumulatieve kans dus. 

Ingevoerd moeten worden (volg voorbeeld 7 uit hoofdstuk 6): 

X = de waarde van X (x = 176,4) 

Gemiddelde (= 174) 

Standaardafwijking (= 7) 

Cumulatief (= WAAR) 

Het antwoord verschijnt direct: P(X < 176,4) = 0,634147. De kans dat P(X > 176,4) is 
dus 1 — 0,634147 = 0,365 85. 

Met NORMINV berekenen we bij een gegeven linkeroverschrijdingskans (cumulatieve kans 
P(X < x) = a, dus), de bijbehorende x-waarde. Daartoe moeten de kans, het gemiddelde 
en de standaardafwijking worden ingevoerd. 

NORM.INV (0,85; 50; 5) berekent de waarde waarvoor een normaal verdeelde variabele 
met u = 50 en ø = 5 een linkeroverschrijdingskans van 0,85 heeft (antwoord x = 
55,18216439). 


De grafiek van een normale verdeling 
We zullen nu laten zien hoe de kansdichtheid van een normale verdeling in beeld gebracht 
kan worden. Laten we een normale verdeling nemen met u = 20 епо = 2. Uit de theorie 
weten we dat 99,7% van alle waarden ligt tussen u — 30 en u + Зо. We gaan daarom de 
kansdichtheid tekenen tussen de waarden 14 en 26. Ga als volgt te werk. 

— Plaats in cel Al de tekst ‘x’ en in cel ВІ de tekst ‘f(xy. 

— Typ in cel A2 het getal 14 en in cel A3 het getal 14,1. Selecteer de cellen A2 en A3 
en sleep het plusje dat op de rand van het gemarkeerde gebied verschijnt over de A- 
kolom, tot de waarde 26 (in cel A102) verschijnt (we kunnen dit overigens ook doen met 
Doorvoeren onder Bewerken). 

— Ga nu in cel B2 staan en activeer de functie NORM.VERD (dit kan natuurlijk ook onder 

de f‚-knop). Voer voor X cel A2 in en geef de waarden 20 respectievelijk 2 аап Gemid- 
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delde en Standaardafwijking. Voer bij Cumulatief nu ONWAAR in. Na OK verschijnt 
in cel B2 het getal 0,002215924. 

— We kunnen de rest van de B-kolom invullen door het plusje op de rand van cel B2 naar 
beneden te slepen. 

— Markeer nu het gebied Al:B102. Druk op de knop van de Grafiek-wizard en selecteer 
Spreiding (puntendiagram). We krijgen nu een punten-grafiek zonder verbindingsstuk- 
jes. De opmaak kan wellicht nog wat aangepast worden, maar het resultaat moet er 
ongeveer als volgt uitzien: 





Fig. A19 


A.3.6 De negatief-exponentiële verdeling 

Voor de negatief-exponentiële verdeling beschikt EXCEL over de functie EXPON.VERD. 
Hiermee 15 de cumulatieve kans P(X < x) te berekenen (Cumulatief = WAAR), of de 
kansdichtheid zelf (Cumulatief = ONWAAR). 

In voorbeeld 12 uit hoofdstuk 6 wordt de kans gevraagd dat een negatief-exponentieel ver- 
deelde kansvariabele met een parameter À = - meer dan 1 maar minder dan 2 bedraagt. 

We berekenen deze kans door EXPON.VERD(2; 4/3; ONWAAR) en ЕХРОМ.УЕКр(1; 
4/3; ONWAAR) van elkaar af te trekken (resultaat: 0,930516549-0,736402862=0, 1941 13687). 
Op dezelfde manier als bij de normale verdeling kan ook de kansdichtheid in beeld worden 
gebracht. 
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A.4 Schatten en toetsen 


Bij het schatten worden op basis van steekproefresultaten betrouwbaarheidsintervallen voor 
de parameters van een populatie geconstrueerd. Wanneer een betrouwbaarheidsinterval voor 
het populatiegemiddelde ш geconstrueerd moet worden, kunnen we, als de standaardafwij- 
king о bekend is, de functie BETROUWBAARHEID gebruiken. 

Voorbeeld: stel dat van een populatie с = 10 bedraagt. We nemen een steekproef van 16 
stuks en rekenen het steekproefgemiddelde uit. Dit levert bijvoorbeeld de waarde x = 110 
(we gebruiken de getallen uit hoofdstuk 8, het eerste voorbeeld). BETROUWBAARHEID 
vraagt om een waarde van о (het significantieniveau). Kies hiervoor bijvoorbeeld 0,05. 
Verder wordt de standaardafwijking gevraagd (=10) en de steekproef grootte (=16). Het 
resultaat is 4,899902706. Dit wil zeggen dat het populatiegemiddelde met (100 x (1 — 
0,05) = 95% ‘zekerheid’ zich bevindt op het interval met: 

ondergrens = 110 — 4 x 4,899902706 ~ 105,1 en 

bovengrens = 110 + 5 x 4,899902706 ~ 114,9. 

Voor de uitleg van de achtergrond-theorie verwijzen we naar de tekst in hoofdstuk 8. 


А.4.1 De ż-verdeling 

Wanneer een interval voor u geschat moet worden met onbekende standaardaf wijking, dient 
de t-verdeling te worden toegepast. Bij het construeren van een betrouwbaarheidsinterval 
zal meestal de functie T.INV gebruikt worden. Deze berekent bij een bepaalde onbetrouw- 
baarheid o tweezijdig verdeeld Ge links en ja rechts) de benodigde positieve t-waarde, 
afhankelijk van het aantal vrijheidsgraden. 

Voorbeeld: zie voorbeeld 2 uit hoofdstuk 8. De benodigde t-waarde berekenen we met 
T.INV (0,05; 15), met als resultaat 2,131450856. Hiermee kan het betrouwbaarheidsinterval 
worden geconstrueerd. 

Willen we een rechteroverschrijdingskans voor een t-verdeelde variabele bepalen, dan ge- 
bruiken we de functie T.VERD. We kunnen daarin opgeven of we een tweezijdig verdeelde 
kans willen bepalen of een éénzijdig verdeelde kans. 


A.4.2 Ое x’-verdeling 

Voor het gebruik van de chi-kwadraatverdeling bij het construeren van betrouwbaarheids- 
intervallen zal in het algemeen de functie CHI.KWADRAAT.INV gebruikt worden. Deze 
rekent bij gegeven rechteroverschrijdingskans en het aantal vrijheidsgraden de bijbehorende 
x*-waarde uit. 


AAA Toetsen 
Voor het verrichten van verschil- of vergelijkingstoetsen heeft EXCEL een aantal standaard- 
methodes onder Extra, Gegevensanalyse. Voor de u-toets (toetsen van gemiddelde met 
bekende standaardafwijking), de t-toets (toetsen van gemiddelde met onbekende standaard- 
afwijking), де x’-toets (toetsen van varianties en verdelingen) en de F-toets (toetsen van 
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gelijkheid van varianties) kunnen we de bekende verdelingen gebruiken. We zullen als 
voorbeeld een t-toets uitvoeren. Het principe van het toetsen met EXCEL wordt daarmee 
geïllustreerd. 

De gegevens nemen we uit voorbeeld 9, hoofdstuk 9. Voor de nulhypothese is geformuleerd: 
u = 16, voor de alternatieve hypothes geldt: u > 16. Voor de onbetrouwbaarheid geldt 
œ = 0,05. De standaardafwijking van de populatie is onbekend. Om de standaardaf wijking 
te kunnen schatten, wordt een steekproef van 5 stuks genomen, met als uitkomsten: 15,7 - 
16,3 - 16,5 -15,9 en 16,3. 


We stellen voor als volgt te werk te gaan. Typ in cel Al xi en daaronder de 5 meetgegevens. 
Typ in cel СІ ‘nulhypothese’ en daaronder (C2) ‘mu’, (C3) ‘alpha’ en (C4) “1-zijdig- of 
2-zijdig’? Voor mu Кап 16 worden ingevuld (cel E2), voor alpha 0,05 (cel ЕЗ) en daaronder 
1 (E4). 

Typ in cel A7 ‘steekproefgegevens’ en daaronder ‘s’, ‘xgem’ en ‘n’. s kan worden uit- 
gerekend met STDEV (markeren A2:A6), xgem met GEMIDDELDE en n met AANTAL 
(steeds op cel A2:A6). 

Voor de toetsingsvariabele geldt: 


т хет — ти 
mmm Беа sn 


Ko 


Typ in cel C7 ‘toetsingsvariabele’ en daaronder ‘standaardfout’ (C8), ‘t-waarde’ (C9), 
‘kritieke waarde’ (C10) en ‘overschrijdingskans’ (C11). Onder standaardfout wordt ver- 
staan =. Deze berekenen we in cel Е8 (typ in het formulevenster ееп =-teken, gevolgd 
door B8/WORTEL(B10)). De t-waarde wordt berekend іп cel D9 (deze is dus (B 10- 
Е2)/Е8). De kritieke waarde is de t-waarde bij een rechteroverschrijdingskans (1-zijdig) 
van alpha = 0,05, met п — 1 vrijheidsgraden, roep in cel E10 dus de functie T.INV aan en 
vul de betreffende gegevens in. 





EH nulhypothese 

2. 16.7 mu 16 
3| 16,3 alpha 0,05 
А4. 16,5 1-zijdig of 2-zijdig? 1 
С 15,8 

Б 16,3 
7 \steekproefgegevens toetsingsvariabele 

D | S 0 325534 standaardfout 0.146969 
9 xgem 16,14 t-waarde 0.952579 
10 п 5 kritieke waarde 2776451 
| overschrijdingskans 0,197373 





Fig. A20 
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We kunnen nu al zeggen dat de nulhypothese niet wordt verworpen omdat de kritieke waarde 
(2,776451) groter is dan de t-waarde, berekend in cel E9. 

Een andere manier is de bij de gevonden t-waarde behorende rechteroverschrijdingskans 
(Één-zijdig) te berekenen. Dat doen we in cel E11 met de functie T. VERD en invulling van 
de gegevens. Het antwoord (0,197373) 15 veel groter dan alpha (=0,05), zodat de nulhypo- 
these niet wordt verworpen. 


A.5 Regressieanalyse en correlatie 


Met de functie LIJNSCH (lijnschatten) geeft EXCEL de lijn die op basis van het kleinste 
kwadratenkriterium een ingevoerd aantal meetpunten het beste benadert. Bovendien kan 
met deze functie meervoudige regressie worden uitgevoerd. Verder wordt, indien gewenst, 
een aantal regressiegegevens opgeleverd, ook de correlatiecoëfficiënt. Ingevoerd moeten 
worden het bereik van de y-waarden (Y-bekend, afhankelijk), het bijbehorende bereik van 
de x-waarden (X-bekend, onafhankelijk). We zullen dit demonstreren voor voorbeeld 1 uit 
hoofdstuk 10. 

De meetgegevens plaatsen we, voorzien van labels x respectievelijk y in de A en de B- 
kolom. Zo worden de cellen Al:A7 en B1:B7 gevuld. Selecteer voor de uitvoer ееп gebied 
met cellen waarvan het aantal kolommen gelijk is aan het aantal onafhankelijke variabelen 
plus één (voor het intercept b). In dit geval dus 1+1=2 kolommen. Wanneer we alleen 
de coëfficiënten van de lijn willen weten, kan het aantal rijen van het geselecteerde gebied 
beperkt blijven tot 1. 

Met CORRELATIE kan de correlatiecoëfficiënt berekend worden tussen twee groepen ge- 
gevens. 

Onder Gegevensanalyse bevindt zich een veel meer uitgebreid stuk gereedschap REGRES- 
SIE waarmee Regressieanalyse kan worden verricht. We laten het aan de lezer over om hier 
zelf mee te experimenteren. 


Ten slotte: Deze bijlage is bedoeld als aanzet tot het gebruik van EXCEL. Er zijn veel meer 
mogelijkheden dan tot dusver is gesuggereerd. De help-functie bij EXCEL zal desgewenst 
de lezer helpen bij het beantwoorden van zijn of haar vragen. 
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Bijlage B Tabellen 


B1 Rechteroverschrijdingskansen in de (standaardnormale) 


oo 1 
U-verdeling: P(U > u) = Je | e3" dt 
u 


lu [0 [1 [2131415161718 109 | 


0,0 | 5000 | 4960 | 4920 | 4880 | 4840 | 4801 | 4761 | 4721 | 4681 | 4641 
0,1 | 4602 | 4562 | 4522 | 4483 | 4443 | 4404 | 4364 | 4325 | 4286 | 4247 
0,2 | 4207 | 4168 | 4129 | 4090 | 4052 | 4013 | 3974 | 3936 | 3897 | 3859 
0,3 | 3821 | 3783 | 3745 | 3707 | 3669 | 3632 | 3594 | 3557 | 3520 | 3483 
0,4 | 3446 | 3409 | 3372 | 3336 | 3300 | 3264 | 3228 | 3192 | 3156 | 3121 
0,5 | 3085 | 3050 | 3015 | 2981 | 2946 | 2912 | 2877 | 2843 | 2810 | 2776 
0,6 | 2743 | 2709 | 2676 | 2643 | 2611 | 2578 | 2546 | 2514 | 2483 | 2451 
0,7 | 2420 | 2389 | 2358 | 2327 | 2296 | 2266 | 2236 | 2206 | 2177 | 2148 
0,8 | 2119 | 2090 | 2061 | 2033 | 2005 | 1977 | 1949 | 1922 | 1894 | 1867 
1841 | 1814 | 1788 | 1762 | 1736 | 1711 | 1685 | 1660 | 1635 | 1611 
1587 | 1562 | 1539 | 1515 | 1492 | 1469 | 1446 | 1423 | 1401 | 1379 
1357 | 1335 | 1314 | 1292 | 1271 | 1251 | 1230 | 1210 | 1190 | 1170 
1151 | 1131 | 1112 | 1093 | 1075 | 1056 | 1038 | 1020 | 1003 | 0985 
0968 | 0951 | 0934 | 0918 | 0901 | 0885 | 0869 | 0853 | 0838 | 0823 
0808 | 0793 | 0778 | 0764 | 0749 | 0735 | 0721 | 0708 | 0694 | 0681 
0668 | 0655 | 0643 | 0630 | 0618 | 0606 | 0594 | 0582 | 0571 | 0559 
0548 | 0537 | 0526 | 0516 | 0505 | 0495 | 0485 | 0475 | 0465 | 0455 
0446 | 0436 | 0427 | 0418 | 0409 | 0401 | 0392 | 0384 | 0375 | 0367 
0359 | 0351 | 0344 | 0336 | 0329 | 0322 | 0314 | 0307 | 0301 | 0294 
0287 | 0281 | 0274 | 0268 | 0262 | 0256 | 0250 | 0244 | 0239 | 0233 
0228 | 0222 | 0217 | 0210 | 0207 | 0202 | 0197 | 0192 | 0188 | 0183 
0179 | 0174 | 0170 | 0166 | 0162 | 0158 | 0154 | 0150 | 0146 | 0143 
0139 | 0136 | 0132 | 0129 | 0125 | 0122 | 0119 | 0116 | 0113 [0110 
0107 | 0104 | 0102 | 0099 | 0096 | 0094 | 0091 | 0089 | 0087 | 0084 
0082 | 0080 | 0078 | 0075 | 0073 | 0071 | 0069 | 0068 | 0066 | 0064 
2,5 | 0062 | 0060 | 0059 | 0057 | 0055 | 0054 | 0052 | 0051 | 0049 | 0048 
2,6 | 0047 | 0045 | 0044 | 0043 | 0041 | 0040 | 0039 | 0038 | 0037 | 0036 
2,7 | 0035 | 0034 | 0033 | 0032 | 0031 | 0030 | 0029 | 0028 | 0027 | 0026 
2,8 | 0026 | 0025 | 0024 | 0023 | 0023 | 0022 | 0021 | 0021 | 0020 | 0019 
2,9 | 0019 | 0018 | 0018 | 0017 | 0016 | 0016 | 0015 | 0015 | 0014 | 0014 
‚О |! 0013 | 0013 | 0013 | 0012 | 0012 | 0011 | 0011 | 0011 | 0010 | 0010 
1 | 0010 | 0009 | 0009 | 0009 | 0008 | 0008 | 0008 | 0008 | 0007 | 0007 
2 | 0007 | 0007 | 0006 | 0006 | 0006 | 0006 | 0006 | 0005 | 0005 | 0005 
‚3 | 0005 | 0005 | 0005 | 0004 | 0004 | 0004 | 0004 | 0004 | 0004 | 0003 
4 | 0003 | 0003 | 0003 | 0003 | 0003 | 0003 | 0003 | 0003 | 0003 | 0002 


о М CO Mi оо У ел ыд ҺӘ оо 


v 


Ki 


KN 


KI v Ki 


Ki 


N 
P 


N.B. De rechteroverschrijdingskansen zijn met 104 vermenigvuldigd. 
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B2 Binomiale verdelingen voor enkele waarden van л en р: 
Р(К =k) = ($) Pp". — p)"* 


















n | k 0,05 | 0,10 | 0,15 0,30 1/3 | 0,40 | 0,45 | 0,50 
2 | O | 9801 | 9025 | 8100 | 7225 | 6400 | 5625 | 4900 | 4444 | 4225 | 3600 | 3025 | 2500 
1 | 0198 | 0950 | 1800 | 2550 | 3200 | 3750 | 4200 | 4444 | 4550 | 4800 | 4950 | 5000 

2 | 0001 | 0025 | 0100 | 0225 | 0400 | 0625 | 0900 | 1111 | 1225 | 1600 | 2025 | 2500 

3 | 0 | 9703 | 8574 | 7290 | 6141 | 5120 | 4219 | 3430 | 2963 | 2746 | 2160 | 1664 | 1250 
1 | 0294 | 1354 | 2430 | 3251 | 3840 | 4219 | 4410 | 4444 | 4436 | 4320 | 4084 | 3750 

2 | 0003 | 0071 | 0270 | 0574 | 0960 | 1406 | 1890 | 2222 | 2389 | 2880 | 3341 | 3750 

3 | 0000 | 0001 | 0010 | 0034 | 0080 | 0156 | 0270 | 0370 | 0429 | 0640 | 0911 | 1250 

4 | O | 9606 | 8145 | 6561 | 5220 | 4096 | 3164 | 2401 | 1975 | 1785 | 1296 | 0915 | 0625 
) 1 | 0388 | 1715 | 2916 | 3685 | 4096 | 4219 | 4116 | 3951 | 3845 | 3456 | 2995 | 2500 
2 | 0006 | 0135 | 0486 | 0975 | 1536 | 2109 | 2646 | 2963 | 3105 | 3456 | 3675 | 3750 

3 | 0000 | 0005 | 0036 | 0115 | 0256 | 0469 | 0756 | 0988 | 1115 | 1536 | 2005 | 2500 

4 | 0000 | 0000 | 0001 | 0005 | 0016 | 0039 | 0081 | 0123 | 0150 | 0256 | 0410 | 0625 

5 | O | 9510 | 7738 | 5905 | 4437 | 3277 | 2373 | 1681 | 1317 | 1160 | 0778 | 0503 | 0312 
I | 0480 | 2036 | 3280 | 3915 | 4096 | 3955 | 3602 | 3292 | 3124 | 2592 | 2059 | 1562 

2 | 0010 | 0214 | 0729 | 1382 | 2048 | 2637 | 3087 | 3292 | 3364 | 3456 | 3369 | 3125 

3 | 0000 | 0011 | 0081 | 0244 | 0512 | 0879 | 1323 | 1646 | 1811 | 2304 | 2757 | 3125 

4 | 0000 | 0000 | 0004 | 0022 | 0064 | 0146 | 0284 | 0412 | 0488 | 0768 | 1128 | 1562 

5 | 0000 | 0000 | 0000 | 0001 | 0003 | 0010 | 0024 | 0041 | 0053 | 0102 | 0185 | 0312 

6 | O | 9415 | 7351 | 5314 | 3771 | 2621 | 1780 | 1176 | 0878 | 0754 | 0467 | 0277 | 0156 
1 | 0571 | 2321 | 3543 | 3993 | 3932 | 3560 | 3025 | 2634 | 2437 | 1866 | 1359 | 0938 

2 | 0014 | 0305 | 0984 | 1762 | 2458 | 2966 | 3241 | 3292 | 3280 | 3110 | 2780 | 2344 

3 | 0000 | 0021 | 0146 | 0415 | 0819 | 1318 | 1852 | 2195 | 2355 | 2765 | 3032 | 3125 

4 | 0000 | 0001 | 0012 | 0055 | 0154 | 0330 | 0595 | 0823 | 0951 | 1382 | 1861 | 2344 

5 | 0000 | 0000 | 0001 | 0004 | 0015 | 0044 | 0102 | 0165 | 0205 | 0369 | 0609 | 0938 

6 | 0000 | 0000 | 0000 | 0000 | 0001 | 0002 | 0007 | 0014 | 0018 | 0041 | 0083 | 0156 

7 | O | 9321 | 6983 | 4783 | 3206 | 2097 | 1335 | 0824 | 0585 | 0490 | 0280 | 0152 | 0078 
1 | 0659 | 2573 | 3720 | 3960 | 3670 | 3115 | 2471 | 2048 | 1848 | 1306 | 0872 | 0547 

2 | 0020 | 0406 | 1240 | 2097 | 2753 | 3115 | 3177 | 3073 | 2985 | 2613 | 2140 | 1641 

3 | 0000 | 0036 | 0230 | 0617 | 1147 | 1730 | 2269 | 2561 | 2679 | 2903 | 2918 | 2734 

4 | 0000 | 0002 | 0026 | 0109 | 0287 | 0577 | 0972 | 1280 | 1442 | 1935 | 2388 | 2734 

5 | 0000 | 0000 | 0002 | 0012 | 0043 | 0115 | 0250 | 0384 | 0466 | 0774 | 1172 | 1641 

6 | 0000 | 0000 | 0000 | 0001 | 0004 | 0013 | 0036 | 0064 | 0084 | 0172 | 0320 | 0547 

7 0000 | 0000 | 0000 0002 | 0005 | 0006 | 0016 | 0037 | 0078 
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B2 (vervolg) 






0,01 


92277 
0746 
0026 
0001 
0000 
0000 
0000 
0000 
0000 


9135 
0830 
0034 
0001 
0000 
0000 
0000 
0000 
0000 
0000 


9044 
0914 
0042 
0001 
0000 
0000 
0000 
0000 
0000 
0000 
0000 


Б оо чо елф шоо к © ооо ол о м н О | сос льш м н о | Pe 


N.B. De kansen zijn met 10* vermenigvuldigd. 


0,05 


6634 
2793 
0515 
0054 
0004 
0000 
0000 
0000 
0000 


6302 
2985 
0629 
0077 
0006 
0000 
0000 
0000 
0000 
0000 


5987 
3151 
0746 
0105 
0010 
0001 
0000 
0000 
0000 
0000 
0000 


0,10 


4305 
3826 
1488 
0331 
0046 
0004 
0000 
0000 
0000 


3874 
3874 
1722 
0446 
0074 
0008 
0001 
0000 
0000 
0000 


3487 
3874 
1937 
0574 
0112 
0015 
0001 
0000 
0000 
0000 
0000 





0,15 


AID 


3847 
2376 
0839 
0185 
0026 
0002 
0000 
0000 


2316 
3679 
2597 
1069 
0283 
0050 
0006 
0000 
0000 
0000 


1969 
3474 
2759 
1298 
0401 
0085 
0012 
0001 
0000 
0000 
0000 


0,20 


1678 
3329 
2936 
1468 
0459 
0092 
0011 
0001 
0000 


1342 
3020 
3020 
1762 
0661 
0165 
0028 
0003 
0000 
0000 


1074 
2684 
3020 
2013 
0881 
0264 
0055 
0008 
0001 
0000 
0000 


1001 
2670 
3115 
2076 
0865 
0231 
0038 
0004 
0000 


0751 
2233 
3003 
2336 
1168 
0389 
0087 
0012 
0001 
0000 


0563 
1877 
2816 
2503 
1460 
0584 
0162 
0031 
0004 
0000 
0000 


0576 
1977 
2965 
2541 
1361 
0467 
0100 
0012 
0001 


0404 
1556 
2668 
2668 
1715 
0735 
0210 
0039 
0004 
0000 


0282 
1211 
2335 
2668 
2001 
1029 
0368 
0090 
0014 
0001 
0000 


0390 
1561 
2131 
2731 
1707 
0683 
0171 
0024 
0002 


0260 
1171 
2341 
2731 
2048 
1024 
0341 
0073 
0009 
0001 


0173 
0867 
1951 
2601 
2276 
1366 
0569 
0163 
0030 
0003 
0000 


0319 
1373 
2587 
2786 
1875 
0808 
0217 
0033 
0002 


0207 
1004 
2162 
2716 
2194 
1181 
0424 
0098 
0013 
0001 


0135 
0725 
1757 
2322 
2377 
1536 
0689 
0212 
0043 
0005 
0000 


0168 
0896 
2090 
2787 
2322 
1239 
0413 
0079 
0007 


0101 
0605 
1612 
2508 
2508 
1672 
0743 
0210 
0035 
0003 


0060 
0403 
1209 
2150 
2508 
2007 
LL 
0425 
0106 
0016 
0001 


0084 
0548 
1569 
2568 
2627 
1719 
0703 
0164 
0017 


0046 
0339 
1110 
2119 
2600 
2128 
1160 
0407 
0083 
0008 


0025 
0207 
0763 
1665 
2384 
2340 
1596 
0746 
0229 
0042 
0003 





0039 
0312 
1094 
2188 
2734 
2188 
1094 
0312 
0039 


0020 
0176 
0703 
1641 
2461 
2461 
1641 
0703 
0176 
0020 


0010 
0098 
0439 
1177 
2051 
2431 
2051 
1172 
0439 
0098 
0010 









B3 


0,05 
0,10 
0,15 
0,20 
0,25 
0,30 
0,35 
0,40 
0,45 
0,50 
0,55 
0,60 
0,65 
0,70 
0,75 
0,80 
0,85 
0,90 
0,95 
1,00 
Ыы] 

1.2 

1,3 

1,4 


De enkelvoudige Poisson-verdeling: P(K = k) = 


0 


0,951 
0,905 
0,861 
0,819 
0,779 
0,741 
0,705 
0,670 
0,638 
0,607 
0,577 
0,549 
0,522 
0,497 
0,472 
0,449 
0,427 
0,407 
0,387 
0,368 
0,333 
0,301 
0,273 
0,247 


1 


0,048 
0,090 
0,129 
0,163 
AR 
0,222 
0,246 
0,268 
0,287 
0,303 
0,317 
0,329 
0,339 
0,347 
0,355 
0,360 
0,364 
0,365 
0,367 
0,368 
0,366 
0,362 
0,354 
0,345 


2 


0,001 
0,005 
0,009 
0,017 
0,024 
0,033 
0,043 
0,054 
0,064 
0,076 
0,088 
0,099 
0,111 
0,122 
0,132 
0,144 
0,154 
0,165 
0,175 
0,164 
0,201 
0,216 
0,230 
0,241 


0,001 
0,001 
0,002 
0,004 
0,006 
0,007 
0,010 
0,012 
0016 
0”020 
0,024 
0,028 
0,034 
0,038 
0,044 
0,050 
0,055 
0,061 
0,074 
0,087 
0,100 
0,113 


0,001 
0,001 
0,002 
0,002 
0,003 
0,003 
0,005 
0,006 
0,008 
0,009 
0,011 
0,013 
0,015 
0,021 
0,026 
0,032 
0,040 


0,001 
0,001 
0,001 
0,001 
0,002 
0,002 
0,003 
0,003 
0,004 
0,006 
0,009 
0,011 


0,001 
0,001 
0,002 
0,002 
0,002 
0,003 


0,001 


m 


Кот 


т 


К! 
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B3 (vervolg) 
m 
0 1 2 3 4 5 6 7 8 9 10 1] 

1,6 | 0,202 | 0,323 | 0,258 | 0,138 | 0,055 | 0,018 | 0,005 | 0,001 

1,7 | 0,183 | 0,310 | 0,264 | 0,150 | 0,063 | 0,022 | 0,006 | 0,002 

1,8 | 0,165 | 0,298 | 0,268 | 0,160 | 0,073 | 0,026 | 0,007 | 0,002 | 0,001 

1,9 | 0,150 | 0,284 | 0,270 | 0,171 | 0,081 | 0,031 | 0,010 | 0,002 | 0,001 

2,0 | 0,135 | 0,271 | 0,271 | 0,180 | 0,090 | 0,036 | 0,012 | 0,004 | 0,001 

2,2 | 0,111 | 0,244 | 0,268 | 0,196 | 0,109 | 0,047 | 0,018 | 0,005 | 0,002 

2,4 | 0,091 | 0,217 | 0,262 | 0,209 | 0,125 | 0,060 | 0,024 | 0,009 | 0,002 | 0,001 

2,6 | 0,074 | 0,193 | 0,251 | 0,218 | 0,141 | 0,074 | 0,032 | 0,012 | 0,004 | 0,001 

2,8 | 0,061 | 0,170 | 0,238 | 0,223 | 0,156 | 0,087 | 0,041 | 0,016 | 0,006 | 0,001 | 0,001 

3,0 | 0,050 | 0,149 | 0,224 | 0,224 | 0,168 | 0,101 | 0,050 | 0,022 | 0,008 | 0,003 | 0,001 

3,2 | 0,041 | 0,130 | 0,209 | 0,223 | 0,178 | 0,114 | 0;060 | 0,028 | 0,011 | 0,004 | 0,002 

3,4 | 0,033 | 0,114 | 0,193 | 0,218 | 0,186 | 0,127 | 0,071 | 0,035 | 0,015 | 0,005 | 0,002 | 0,001 
3,6 | 0,027 | 0,099 | 0,177 | 0,212 | 0,191 | 0,138 | 0,083 | 0,042 | 0,019 | 0,008 | 0,003 | 0,001 
3,8 | 0,022 | 0,085 | 0,162 | 0,204 | 0,195 | 0,148 | 0,093 | 0,051 | 0,024 | 0,010 | 0,004 | 0,001 
4,0 | 0,018 | 0,074 | 0,146 | 0,195 | 0,196 | 0,156 | 0,104 | 0,060 | 0,030 | 0,013 | 0,005 | 0,002 
4,5 | 0,011 | 0,050 | 0,113 | 0,168 | 0,190 | 0,171 | 0,128 | 0,082 | 0,047 | 0,023 | 0,010 | 0,004 
5,0 | 0,007 | 0,033 | 0,085 | 0,140 | 0,175 | 0,176 | 0,146 | 0,105 | 0,065 | 0,036 | 0,018 | 0,009 
5,5 | 0,005 | 0,022 | 0,061 | 0,113 | 0,157 | 0,171 | 0,157 | 0,124 | 0,084 | 0,052 | 0,029 | 0,014 
6,0 | 0,002 | 0,015 | 0,045 | 0,089 | 0,134 | 0,161 | 0,160 | 0,138 | 0,103 | 0,069 | 0,041 | 0,023 
6,5 | 0,001 | 0,010 | 0,032 | 0,069 | 0,112 | 0,146 | 0,157 | 0,146 | 0,119 | 0,085 | 0,056 | 0,033 
7,0 | 0,001 | 0,006 | 0,023 | 0,052 | 0,091 | 0,128 | 0,149 | 0,149 | 0,130 | 0,101 | 0,071 | 0,046 
7,5 | 0,001 | 0,004 | 0,016 | 0,038 | 0,074 | 0,109 | 0,127 | 0,146 | 0,137 | 0,115 | 0,086 | 0,058 
8,0 | 0,000 | 0,003 | 0,011 | 0,028 | 0,058 | 0,091 | 0,122 | 0,140 | 0,140 | 0,124 | 0,099 | 0,072 
8,5 | 0,000 | 0,002 | 0,007 | 0,021 | 0,044 | 0,076 | 0,106 | 0,130 | 0,137 | 0,130 | 0,110 | 0,086 
9,0 | 0,000 | 0,001 | 0,005 | 0,015 | 0,034 | 0,061 | 0,091 | 0,117 | 0,132 | 0,131 | 0,119 | 0,097 
9,5 | 0,000 | 0,001 | 0,003 | 0,011 | 0,025 | 0,049 | 0,076 | 0,104 | 0,123 | 0,130 | 0,123 | 0,107 
10,0 | 0,000 | 0,000 | 0,003 | 0,007 | 0,019 | 0,038 | 0,063 | 0,090 | 0,113 | 0,125 | 0,125 | 0,114 
| m К 

[2 13 14 15 16 17 18 19 20 21 22 

1,6 

Ly 

1,8 

1,9 

2,0 

2,2 

2,4 

2,6 

2,8 

3,0 

3,2 

3,4 

3,6 

3,8 | 0,001 

4,0 | 0,001 

4,5 | 0,002 | 0,001 

5,0 | 0,003 | 0,001 | 0,001 

5,5 | 0,006 | 0,003 | 0,001 | 0,001 

6,0 | 0,011 | 0,005 | 0,003 | 0,001 | 0,001 

6,5 | 0,018 | 0,009 | 0,004 | 0,002 | 0,001 

7,0 | 0,027 | 0,014 | 0,007 | 0,004 | 0,001 | 0,001 

7,5 | 0,037 | 0,020 | 0,012 | 0,006 | 0,002 | 0,001 | 0,001 

8,0 | 0,048 | 0,030 | 0,017 | 0,009 | 0,004 | 0,002 | 0,001 

8,5 | 0,060 | 0,040 | 0,024 | 0,013 | 0,007 | 0,004 | 0,002 | 0,001 

9,0 | 0,073 | 0,050 | 0,033 | 0,019 | 0,011 | 0,006 | 0,003 | 0,001 | 0,001 

9,5 | 0,084 | 0,062 | 0,042 | 0,027 | 0,015 | 0,009 | 0,005 | 0,002 | 0,001 | 0,001 
| 10,0 | 0,095 | 0,072 | 0,053 | 0,034 | 0,022 | 0,013 | 0,007 | 0,004 | 0,001 | 0,001 | 0,001 
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с Em 

mie 

B4 De cumulatieve Poisson-verdeling: P(K < с) = у, T 

k=0 j 

= P(K =0)+Р(К =1)+ P(K = 2)... + Р(К = с) 
С 
т 

0 1 2 3 4 5 6 7 819110 





0,05 | 0,951 | 0,999 | 1,000 
0,10 | 0,905 | 0,995 | 1,000 
0,15 | 0,861 | 0,990 | 0,999 | 1,000 
0,20 | 0,819 | 0,982 | 0,999 | 1,000 


0,25 | 0,779 | 0,974 | 0,998 | 1,000 
0,30 | 0,741 | 0,963 | 0,996 | 1,000 
0,35 | 0,705 | 0,951 | 0,994 | 1,000 
0,40 | 0,670 | 0,938 | 0,992 | 0,999 | 1,000 
0,45 | 0,638 | 0,925 | 0,989 | 0,999 | 1,000 


0,50 | 0,607 | 0,910 | 0,986 | 0,998 | 1,000 
0,55 | 0,577 | 0,894 | 0,982 | 0,998 | 1,000 
0,60 | 0,549 | 0,878 | 0,977 | 0,997 | 1,000 
0,65 | 0,522 | 0,861 | 0,972 | 0,996 | 0,999 | 1,000 
0,70 | 0,497 | 0,844 | 0,966 | 0,994 | 0,999 | 1,000 


0,75 | 0,472 | 0,827 | 0,959 | 0,993 | 0,999 | 1,000 
0,80 | 0,449 | 0,809 | 0,953 | 0,991 | 0,999 | 1,000 
0,85 | 0,427 | 0,791 | 0,945 | 0,989 | 0,998 | 1,000 
0,90 | 0,407 | 0,772 | 0,937 | 0,987 | 0,998 | 1,000 
0,95 | 0,387 | 0,754 | 0,929 | 0,984 | 0,997 | 1,000 





1,00 | 0,368 | 0,736 | 0,920 | 0,981 | 0,996 | 0,999 | 1,000 
1,1 0,333 | 0,699 | 0,900 | 0,974 | 0,995 | 0,999 | 1,000 
1,2 | 0,301 | 0,663 | 0,879 | 0,966 | 0,992 | 0,998 | 1,000 
1,3 | 0,273 | 0,627 | 0,857 | 0,957 | 0,989 | 0,998 | 1,000 
1,4 | 0,247 | 0,592 | 0,833 | 0,946 | 0,986 | 0,997 | 0,999 | 1,000 
0,999 | 1,000 
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B4 (vervolg) 
m 
0 1 2 3 4 5 6 7 8 9 10 11 
16 | 0,202 | 0,525 | 0,783 | 0,921 | 0,976 | 0,994 | 0,999 | 1,000 
17 | 0,183 | 0,493 | 0,757 | 0,907 | 0,970 | 0,992 | 0,998 | 1,000 
1,8 | 0,165 | 0,463 | 0,731 | 0,891 | 0,964 | 0,990 | 0,997 | 0,999 | 1000 
19 | 0,150 | 0,434 | 0,704 | 0,875 | 0,956 | 0,987 | 0,997 | 0,999 | 1,000 
2,0 | 0,135 | 0,406 | 0,677 | 0,857 | 0,947 | 0,983 | 0,995 | 0,999 | 1,000 
22 | 0,111 | 0,355 | 0,623 | 0,819 | 0,928 | 0,975 | 0,993 | 0,998 | 1,000 
2,4 | 0,091 | 0,308 | 0,570 | 0,779 | 0,904 | 0,964 | 0,988 | 0,997 | 0,999 | 1,000 
2,6 | 0,074 | 0,267 | 0,518 | 0,736 | 0,877 | 0,951 | 0,983 | 0,995 | 0,999 | 1,000 
2,8 | 0,061 | 0,231 | 0,469 | 0,692 | 0.848 | 0,935 | 0,976 | 0,992 | 0,998 | 0,999 | 1,000 
3,0 | 0,050 | 0,199 | 0,423 | 0,647 | 0,815 | 0,916 | 0,966 | 0,988 | 0,996 | 0,999 | 1,000 
3,2 | 0,041 | 0,171 | 0,380 | 0,603 | 0,781 | 0,895 | 0,955 | 0,983 | 0,994 | 0,998 | 1,000 
3,4 | 0,033 | 0147 | 0,340 | 0,558 | 0,744 | 0,871 | 0,942 | 0,977 | 0,992 | 0,997 | 0,999 | 1,000 
3,6 | 0,027 | 0,126 | 0,303 | 0,515 | 0,706 | 0,844 | 0,927 | 0,969 | 0,988 | 0,996 | 0,999 | 1,000 
3,8 | 0,022 | 0,107 | 0,269 | 0,473 | 0,668 | 0,816 | 0,909 | 0,960 | 0,984 | 0,994 | 0,998 | 0,999 
4,0 | 0,018 | 0,092 | 0,238 | 0,433 | 0,629 | 0,785 | 0,889 | 0,949 | 0,979 | 0,992 | 0,997 | 0,999 
4,5 | 0,011 | 0,061 | 0,174 | 0,342 | 0,532 | 0,703 | 0,830 | 0,913 | 0,960 | 0,983 | 0,993 | 0,997 
5,0 | 0,007 | 0,040 | 0,125 | 0,265 | 0,440 | 0,616 | 0,762 | 0,867 | 0,932 | 0,968 | 0,986 | 0,995 
5,5 | 0,005 | 0,027 | 0,088 | 0,201 | 0,358 | 0,529 | 0,686 | 0,810 | 0,894 | 0,946 | 0,975 | 0,989 
6,0 | 0,002 | 0,017 | 0,062 | 0,151 | 0,285 | 0,446 | 0,606 | 0,744 | 0,847 | 0,916 | 0,957 | 0,980 
6,5 | 0,001 | 0,011 | 0,043 | 0,112 | 0,224 | 0,370 | 0,527 | 0,673 | 0,792 | 0,877 | 0,933 | 0,966 
7,0 | 0,001 | 0,007 | 0,030 | 0,082 | 0,173 | 0,301 | 0,450 | 0,599 | 0,729 | 0,830 | 0,901 | 0,947 
7,5 | 0,001 | 0,005 | 0,021 | 0,059 | 0,133 | 0,242 | 0,379 | 0,525 | 0,662 | 0,777 | 0,863 | 0,921 
8,0 | 0,000 | 0,003 | 0,014 | 0,042 | 0,100 | 0,191 | 0,313 | 0,453 | 0,593 | 0,717 | 0,816 | 0,888 
8,5 | 0,000 | 0,002 | 0,009 | 0,030 | 0,074 | 0,150 | 0,256 | 0,386 | 0,523 | 0,653 | 0,703 | 0,849 
9,0 | 0.000 | 0,001 | 0,006 | 0,021 | 0,055 | 0,116 | 0,207 | 0,324 | 0,456 | 0,587 | 0,706 | 0,803 
9,5 | 0,000 | 0.001 | 0,004 | 0,015 | 0,040 | 0,089 | 0,165 | 0,269 | 0,392 | 0,522 | 0,645 | 0,752 
10,0 | 0.000 | 0,000 | 0,003 | 0,010 | 0,029 | 0,067 | 0,130 | 0,220 | 0,333 | 0,458 | 0,583 | 0,697 
|а | 
12 13 14 15 16 17 18 19 20 21 22 
1,6 
17 
1,8 
1,9 
2,0 
2.2 
2,4 
2,6 
2,8 
3,0 
3,2 
3,4 
3,6 
3,8 | 1,000 
4,0 | 1,000 
4,5 | 0,999 | 1,000 
5,0 | 0,998 | 0,999 | 1,000 
5,5 | 0,995 | 0,998 | 0,999 | 1,000 
6,0 | 0,991 | 0,996 | 0,999 | 0,999 | 1,000 
6,5 | 0,984 | 0,993 | 0,997 | 0,999 | 1,000 
7,0 | 0,973 | 0,987 | 0,994 | 0,998 | 0,999 | 1,000 
7,5 | 0,958 | 0,978 | 0,990 | 0,996 | 0,998 | 0,999 | 1,000 
8,0 | 0,936 | 0,966 | 0,983 | 0,992 | 0,996 | 0,998 | 0,999 | 1,000 
8,5 | 0,909 | 0,949 | 0,973 | 0,986 | 0,993 | 0,997 | 0,999 | 0,999 | 1,000 
9,0 | 0,876 | 0,926 | 0,959 | 0,978 | 0,989 | 0,995 | 0,998 | 0,999 | 1,000 
9,5 | 0,836 | 0,898 | 0,940 | 0,967 | 0,982 | 0,991 | 0,996 | 0,998 | 0,999 | 1,000 
10,0 | 0,792 | 0,864 | 0,917 | 0,951 | 0,973 | 0,986 | 0,993 | 0,997 | 0,998 | 0,999 | 1,000 
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B5 


© 


ооо e \© D м сол E Lä Hr 


15 


Rechter kritieke waarden in de T-verdeling: 


waarden tr, (oi van T 


0,10 


3,078 
1,886 
1,638 
1,533 
1,476 
1,440 
1,415 
1,397 
1,383 
1.872 
1,363 
1,356 
1,350 
1,345 
1,341 
1,337 
Lä 
1,330 
1,328 
1.329 
Lë? 
1,221 
Ж. 
1,318 
1,316 
1.215 
1,314 
1,313 
Ll 
1,310 
1,303 
1,296 
1,289 
1,282 


0,05 


6,314 
2,920 
2.393 
2,132 
2,015 
1,943 
1,895 
1,860 
1,433 
1,812 
1,796 
1,782 
erg 
1,761 
1,753 
1,746 
1,740 
1,734 
1,729 
1,229 
telal 
17 
1,714 
LALI 
1,708 
ЫЧ 
1,703 
1,701 
1,699 
1,697 
1,684 
1,671 
1,658 
1,645 





0,025 


12,706 
4,303 
3,182 
2,776 
Zedd 
2,447 
2,365 
2,306 
2.262 
2,228 
2,201 
2,179 
2,160 
2,145 
2.131 
2,120 
2.110 
2.101 
2,093 
2,086 
2,080 
2,074 
2,069 
2,064 
2,060 
2,056 
2052 
2,048 
2,045 
2,042 
2,021 
2,000 
1,980 
1,960 





Q 
0,01 


31,821 
6,965 
4,541 

3,747 
3,365 
3,143 
2,998 
2,896 
2,821 

2,764 
2,718 
2,681 

2,650 
2,624 
2,602 
2,583 
2,567 
2.092 
2,939 
2,528 
2,518 
2,508 
2,500 
2,492 
2,485 
2,479 
2,473 
2,467 
2,462 
2,457 
2,423 
2,390 
2,358 
2.326 





0,005 


63,657 
9,925 
5,841 
4,604 
4,032 
3,707 
3,499 
3.939 
1239 
3,169 
3,106 
3,055 
3,012 
2,977 
2,947 
2,921 
2,898 
2,878 
2,861 
2,845 
2,831 
2,819 
2,807 
2,797 
2,187 
2.719 
2,771 
2,763 
2.196 
2,750 
2,704 

2,660 

2,617 

2,576 





0,0005 


636,619 
31,598 
12,924 

8,610 
6,869 
3,939 
5,408 
5,041 
4,781 
4,587 
4,437 
4,318 
4,221 
4,140 
4,073 
4,015 

3,965 

AO 

3,883 

3,850 

3:819 

3.792 

3,768 

3,745 

Ra 

3107 

3,690 

3,674 

3,659 

3,646 

3,3231 

3,460 

3,273 

Sd 
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B6 Rechter kritieke waarden іп де x’-verdeling: 
waarden van x?(a) 
k : 
0,99 | 0,975 | 0,95 | 0,90 | 0,50 | 0,10 | 0,05 | 0,025 | 0,01 
1 | 0,000 | 0,001 | 0,004 | 0,015 | 0,455 | 2,71 | 3,84 | 5,02 | 6,64 
2 | 0,020 | 0,051 | 0,103 | 0,211 | 1,386 | 4,61 | 5,99 | 7,38 | 9,21 
з 10115 | 0216 | 0352 | 0,584 | 2,366 | 625 | 482 | 935 | 1138 
4 | 0,297 | 0,484 | 0,711 | 1,064 | 3,357 | 7,78 | 9,49 | 11,14 | 13,28 
5 | 0,554 | 0,831 | 1,145 | 1,610 | 4,351 | 9,24 | 11,07 | 12,83 | 15,09 
6 | 0,872 | 1,237 | 1,635 | 2,204 | 5,35 | 10,65 | 12,59 | 14,45 | 16,81 
7 | 1,239 | 1,690 | 2,167 | 2,833 | 6,35 | 12,02 | 14,07 | 16,01 | 18,48 
8 | 1,646 | 2,180 | 2,733 | 3,490 | 7,34 | 13,36 | 15,51 | 17,53 | 20,09 
9 | 2,088 | 2,700 | 3,325 | 4,168 | 8,34 | 14,68 | 16,92 | 19,02 | 21,67 
10 | 2,558 | 3,247 | 3,940 | 4,865 | 9,34 | 15,99 | 18,31 | 20,48 | 23,21 
11 | 3,05 | 3,82 | 4,57 | 5,58 | 10,34 | 17,28 | 19,68 | 21,92 | 24,73 
12 | 3,57 | 4,40 | 5,23 | 6,30 | 11,34 | 18,55 | 21,03 | 23,34 | 26,22 
13 | 4,11 5,01 5,89 7,04 | 12,34 | 19,81 | 22,36 | 24,74 | 27,69 
14 | 4,66 5,63 6,57 7,79 | 13,34 | 21,06 | 23,69 | 26,12 | 29,14 
151 523 | 626 | 726 | 8,55 | 14,34 | 2431 | 25/00 | 27,49 | 30,58 
16 | 5,81 | 6,91 | 7,96 | 9,31 | 15,34 | 23,54 | 26,30 | 28,85 | 32,00 
17 | 6,41 | 7,56 | 8,67 | 10,09 | 16,34 | 24,77 | 27,59 | 30,19 | 33,41 
18 | 7,01 | 8,23 | 9,39 | 10,87 | 17,34 | 25,99 | 28,87 | 31,53 | 34,81 
19 | 7,63 | 8,91 | 10,12 | 11,65 | 18,34 | 27,20 | 30,14 | 32,85 | 36,19 
20 | 8,26 | 9,59 | 10,85 | 12,44 | 19,34 | 28,41 | 31,41 | 34,17 | 37,57 
21 | 8,90 | 10,28 | 11,59 | 13,34 | 20,34 | 29,61 | 32,67 | 35,48 | 38,93 
22 | 9,54 | 10,98 | 12,34 | 14,04 | 21,34 | 30,81 | 33,92 | 36,78 | 40,29 
23 | 10,20 | 11,69 | 13,09 | 14,85 | 22,34 | 32,01 | 35,17 | 38,08 | 41,64 
24 | 10,86 | 12,40 | 13,85 | 15,66 | 23,34 | 33,20 | 36,42 | 39,36 | 42,98 
25 | 11,52 | 13,12 | 14,61 | 16,47 | 24,34 | 34,38 | 37,65 | 40,65 | 44,31 
26 | 12,20 | 13,84 | 15,38 | 17,29 | 25,34 | 35,56 | 38,89 | 41,92 | 45,64 
27 | 12,88 | 14,57 | 16,15 | 18,11 | 26,34 | 36,74 | 40,11 | 43,19 | 46,96 
28 | 13,56 | 15,31 | 16,93 | 18,94 | 27,34 | 37,92 | 41,34 | 44,46 | 48,28 
29 | 14,26 | 16,05 | 17,71 | 19,77 | 28,34 | 39,09 | 42,56 | 45,72 | 49,59 
30 | 14,95 | 16,79 | 18,49 | 20,60 | 29,34 | 40,26 | 43,77 | 46,98 | 50,89 
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B7 Rechter kritieke waarden in de F-verdeling: 
waarden van F, ,, (0,05) 


e 
М 





1 2 3 + 5 6 7 8 9 10 


© о zl CN A LUL N =e 


ke 
N 





VD У хл Б о Мм 


(vervolg) 


245,9 


19,4 
8,70 
5,86 


3,94 


3,22 
3,01 
2,69 
Re 


Ce 
2,40 
ded 


2,23 
2.20 
2.18 
2.15 
2,13 
2.11 
2,09 
2,01 
1,92 
1,84 
Ж. 
1,67 








254,3 


19,5 
8,53 


4,36 
3,67 
3.23 


Zl 
2,54 
2,40 
2,30 


2,13 
2,01 


1,92 
1,88 
1,84 
1,81 
1,78 
1,76 
1,73 
1,71 
1,62 
1,51 
1,39 
1,25 
1,00 






































sg 
М 


© OO У хл Б Чо М н 


Rechter kritieke waarden in de F-verdeling: 


waarden van F ,, (0,025) 


1 


647,5 
38,5 
17,4 
12,2 
10,0 
8,81 
8,07 
7,57 
1,241 
6,94 
6,72 
6,55 
6,41 
6,30 
6,20 
6,12 
6,04 
5,98 
5.972 
3,87 
5,83 
NEL 
5,75 
Jtd 
5,69 
5.97 
5,42 
3,29 
5,15 


2 


799,5 
39,0 
16,0 
10,6 
8,43 
7,26 
6,54 
6,06 
5,71 
5,46 
5,26 
5,10 
4,97 
4,86 
4,77 
4,69 
4,62 
4,56 
4,51 
4,46 
4,42 
4,38 
4,35 
4,32 
4,29 
4,18 
4,05 
3,93 
3,80 


3 


864,2 
39,2 
15,4 
0,98 
7,16 
6,60 
3,89 
5,42 
5,08 
4,83 
4,63 
4,47 
4,35 
4,24 
4,15 
4,08 
4,01 
3.95 
3,90 
3,86 
3,02 
3,78 
Sd 
КАТ, 
3,69 
3,59 
3,46 
3,34 
3,23 


4 


899,6 
Sd 
Lä 
9,60 
EK 
6,23 
3.92 
5,05 
4,72 
4,47 
4,28 
4,12 
4,00 
3,89 
3,80 
Kies 
3,66 
3,61 
3,56 
381 
3,48 
3,44 
3,41 
3,38 
сс». 
3,25 
3.13 
3,01 
2,89 


5 


921,8 
393 
14,9 
9,36 
7,19 
3.99 
3.29 
4,82 
4,48 
4,24 
4,04 
3,89 
се, 
3,66 
3,58 
3,50 
3,44 
3,38 
3,33 
3,29 
Be 
Ke 
3,18 
3,13 
3.19 
3,03 
2,90 
29 
2,67 


Ui 


6 
ОЗЫ 1 
29,3 
14,7 
9,20 
6,98 
3.82 
SL 
4,65 
4,32 
4,07 
3,88 
Re 
3,60 
3,50 
3,41 
3,34 
3.28 
3,22 
Ар; 
RS 
3,09 
3,05 
3,02 
209 
2.97 
2,87 
2,74 
2,63 
2,52 


H 


948,2 
39,4 
14,6 
9,07 
6,85 
3/0 
4,99 
4,53 
4,20 
3,95 
3,76 
3,61 
3,48 
3,38 
3,29 
3522 
3,16 
3,10 
3,05 
3,01 
2,97 
2,93 
2,90 
2.07 
2,85 
2,75 
2,62 
2.91 
2.39 


8 


926,7 
39,4 
14,5 
8,98 
6,76 
5,60 
4,90 
4,43 
4,10 
3,85 
3,66 
3.91 
3,39 
3,29 
3,20 
3.12 
3,06 
3,01 
2,96 
2491 
2,87 
2,84 
2,81 
2,18 
2,15 
2,65 
2593 
2,41 

2,30 

Zl 
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9 


963,3 
39,4 
14,5 
8,90 
6,68 
5,52 
4,82 
4,36 
4,03 
3,78 
3,59 
3,44 
3,31 
3,21 
3,12 
3,05 
2,98 
2,93 
2,88 
2,84 
2,80 
2,76 
2,73 
2,70 
2,68 
2,57 
2,45 
2,33 

2,22 

2,11 


10 


068,6 
39,4 
14,4 
8,84 
6,62 
5,46 
4,76 
4,30 
3,96 
3,72 
3.239 
3.27 
дә 
de 
3,06 
2,99 
2.92 
2.67 
2,82 
Bed d 
2,73 
2,70 
2,67 
2,64 
2,61 
2,51 
Ad 
Cha 

2,16 

2,05 
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B8 


1 
2 
3 
4 
5 
6 
7 
б 
9 


(vervolg) 
12 15 
976,7 | 984,9 
39,4 | 39,4 
14,3 14,3 
8,75 | 8,66 
6,52 | 6,43 
ӘТ | З 
4,67 | 4,57 
4,20 | 4,10 
357 | Alt 
3,62. | 3,92 
3,43 | 3,33 
3,28 | 3,18 
s13 | 34 
3,05 | 2,95 
2,96 | 2,86 
2,89 | 2,79 
284 | 2.72 
ge? t 207 
Sat, | 262 
2,68 | 2,57 
2,64 | 2,53 
2,60 | 2,50 
2,57 | 2,47 
2,54 | 2,44 
ëch 2,41 
2,41 2.9] 
2,29 | 2,18 
2,17 | 2,06 
2,05 1,94 
1,94 1,83 


24 


997,2 


39,9 
14,1 
8,51 
6,28 
9.12 
4,42 
3.95 
3,61 
3,37 
3,17 
3,02 
2.89 
2,79 
2,70 
2,63 
2,56 
2,50 
2,45 
2,41 
2,37] 
dd 
2,30 
PROM | 
2,24 
2,14 
2,01 
1,88 
1,76 
1,64 


Vi 
30 


1001 
39,5 
14,1 
8,46 
6,23 
5,07 
4,36 
3,89 
3,56 
3,31 
3,12 
2,96 
2,84 
2,73 
2,64 
Ny, 
2,50 
2,44 
2,39 
2,35 
2,31 
2,27 
2,24 
2,21 
218 
2,07 
1,94 
1,82 
1,69 
1,57 


40 


1006 
39,5 
14,0 
8,41 
6,18 
5,01 

431 

3,84 
3,91 
3,26 
3,06 
2.91] 

28 
2,67 
2.39 
Д.91 
2,44 
2,38 
2.33 
2,29 
2.29 
2,21 

2,18 
2.19 
2 Та 
2,01 

1,88 
1,74 
1,61 

1,48 


60 


1010 
ы 
14,0 
8,36 
6,12 
4,96 
4,25 
3,78 
3,45 
3,20 
3,00 
2,85 
Zi 
2,61 
2.32 
2,45 
2.38 
2,22 
ZAT 
2,22 
2,18 
2,14 
д.11 
2,08 
2,05 
1,94 
1,80 
1,67 
LIS 
1,39 


120 


1014 
39,9 
13,9 
8,31 

6,07 
4,90 
4,20 
Re 
3,39 
3,14 
2,94 
2519 
2,66 
SN 
2,46 
2.96 
2.32 
2,26 
2,20 
2,16 
Zld 

2,08 
2,04 
2,01 

1,98 
1,87 
1,72 
1,58 
1,43 

1,27 





Со 


1018 
39,3 
12,9 
8,26 
6,02 
4,85 
4,14 
3,67 
3.33 
3,08 
2,88 
Re 
2,60 
2,49 
2,40 
ZA 
2.29 
2,19 
2.13 
2,09 
2,04 
2,00 
1.97 
1,94 
Lë 

1,79 
1,64 
1,48 
laat 

1,00 
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B9 Rechter kritieke waarden in de F-verdeling: 
waarden van F ,, (0,01) 


v] 
1 2 3 4 3 6 7 K 9 10 


с 
A 








М оо У хол Б о Мм ra 
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B9 


© 
N 





e Fa ке Mä OO TOE OUN Fa 
= СӘ 


— 
LA 


(vervolg) 
12 15 
6106 | 6157 
99,4 | 99,4 
27,1 | 26,9 
14,4 | 14,2 
9,89 | 9,72 
ТТА | 196 
6,47 | 6,31 
5,67 | 3,92 
5,11 | 4,96 
АЛ1 | 4,56 
440 | 4,25 
4,16 | 4,01 
3,96 | 3,82 
3,80 | 3,66 
3,67 | 3,32 
3,55 | 3,41 
3,46 | 3,31 
397 | 3,23 
3,30 1 3,13 
3,23 | 3,09 
3,17 | 303 
3,12 | 2,98 
3,07 | 2,93 
3,03 | 2,89 
2,99 | 2,85 
2,84 | 2,70 
2.66 | 2.92 
20 | 239 
2,34 | 2,19 
2,18 | 2,04 





6366 
99,5 
26,1 
13,3 
9,02 
6,88 
5,65 
4,86 
4,31 
3,91 
3,60 
3,36 
3.17 
3,00 
2,87 
re 
2,65 
2,27 
2,49 
2,42 
2,36 
2,31 
2,26 
2.21 
211 
2,01 
1,80 
1,60 
1,38 
1,00 
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aantal waarnemingen 


(n) 


50 


B10 De toets van Grubbs 


X(n) — X 
Toetsingsgrootheid: T = aff ы 
5 


0,05 


1,15 
1,46 
1,67 
1,82 
1,94 
2,03 
211 
2,18 
2,23 
2,29 
2,33 
2,37 
2,41 
2,44 
2,47 
2,50 
2,53 
2,56 
2,58 
2,60 
2,62 
2,64 
2,66 
2,75 
2,82 
2,87 
2,92 
2,96 
3,03 
3,09 
3,14 
3,18 
3,21 


X sz X] 





S 


Kritieke waarden voor с (rechtseenzijdig) 


0,025 


Ll 
1,48 
1,71 
1,89 
2,02 
2,13 
2,21 
2,29 
2,36 
2,41 
2,46 
2.91 
2.99 
2,39 
2,62 
2,65 
2,68 
2.74 
2.73 
2,76 
2,78 
2,80 
2,82 
2,91 
2,98 
3,04 
3,09 
3:13 
3,20 
3,26 
3,31 
3.39 


Uitschieterstoets voor enkelvoudige uitkomsten en steekproefgemiddelden. 
Voorwaarde: Waarnemingen zijn normaal verdeeld. 
Gegeven zijn de kritieke waarden met bijbehorende rechteroverschrijdingskansen. 


0,01 


1,15 
1,49 
жы, 
1,94 
2.10 
д2 
2.32 
2,41 
2,48 
2.25 
2,61 
2,66 
Se) 
2573 
279 
2,82 
2,85 
2,88 
2.91 
2,94 
2,96 
2,99 
3,01 
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B11 De toets van Cochran 


Uitschieterstoets voor een extreem grote variantie binnen een groep van k varianties uit (bij 
benadering) normale verdelingen. Elke variantie is gebaseerd op v vrijheidsgraden. 


Toetsingsgrootheid: T = 


Kritieke waarden voor « = 0,05 (rechtseenzijdig) 


| у 1 
2 0,998 
3 0,967 
4 0,906 
5 0,841 
6 0,781 
7 0,727 
8 0,680 
9 0,638 
10 0,602 
12 0,541 
15 0,471 
20 0,389 
24 0,343 
30 0,293 
40 0,237 
60 0,174 


2 


0,975 
0,871 
0,768 
0,684 
0,616 
0,561 
0,516 
0,477 
0,445 
0,392 
0,335 
0,270 
0,235 
0,198 
0,158 
0,113 


3 


0,939 
0,798 
0,684 
0,598 
0,532 
0,480 
0,438 
0,403 
0,373 
0,326 
0,276 
0,220 
0,190 
0,159 
0,126 
0,090 


Sm ах 


0,906 
0,746 
0,629 
0,544 
0,480 
0,431 
0,391 
0,358 
0,331 
0,288 
0,242 
0,192 
0,166 
0,138 
0,108 
0,076 


5 


0,877 
0,707 
0,590 
0,506 
0,445 
0,397 
0,359 
0,329 
0,303 
0,262 
0,219 
0,173 
0,149 
0,124 
0,097 
0,068 


6 


0,853 
0,677 
0,560 
0,478 
0,418 
0,373 
0,336 
0,307 
0,282 
0,244 
0,203 
0,160 
0,137 
0,114 
0,089 
0,062 


Kritieke waarden voor с = 0,01 (rechtszijdig) 


| у 1 
2 0,100 
3 0,993 
4 0,968 
5 0,928 
6 0,883 
7 0,838 
8 0,794 
9 0,754 
10 0,718 
12 0,653 
[з 0573 
20 0,480 
24 0,425 
30 0,363 
40 0,294 
60 0,215 


2 


0,995 
0,942 
0,864 
0,788 
0,722 
0,664 
0,615 
0,573 
0,536 
0,475 
0,407 
0,330 
0,287 
0,241 
0,192 
0,137 


3 


0,980 
0,883 
0,781 
0,696 
0,626 
0,569 
0,521 
0,481 
0,447 
0,392 
0,332 
0,265 
0,230 
0,191 
0,151 
0,107 


4 


0,959 
0,834 
0,721 
0,633 
0,564 
0,508 
0,463 
0,425 
0,393 
0,343 
0,288 
0,229 
0,197 
0,164 
0,128 
0,090 


5 


0,937 
0,793 
0,676 
0,588 
0,520 
0,466 
0,423 
0,387 
0,357 
0,310 
0,259 
0,205 
0,176 
0,145 
0,114 
0,078 


6 


0,917 
0,761 
0,641 
0,553 


0,487 ` 


0,435 
0,393 
0,359 
0,331 
0,286 
0,239 
0,188 
0,161 
0,133 
0,103 
0,072 


- 


0,833 
0,653 
0,536 
0,456 
0,398 
0,354 
0,319 
0,290 
0,267 
0,230 
0,191 
0,150 
0,129 
0,106 
0,083 
0,058 


7 


0,899 
0,734 
0,613 
0,526 
0,461 
0,410 
0,370 
0,338 
0,311 
0,268 
0,223 
0,175 
0,150 
0,123 
0,096 
0,067 


8 


0,816 
0,633 
0,518 
0,439 
0,382 
0,338 
0,304 
0,277 
0,254 
0,219 
0,182 
0,142 
0,122 
0,100 
0,078 
0,055 


8 


0,882 
0,711 
0,590 
0,504 
0,440 
0,391 
0,352 
0,321 
0,294 
0,254 
0,210 
0,165 
0,141 
0,116 
0,090 
0,062 


9 


0,801 
0,617 
0,502 
0,424 
0,368 
0,326 
0,293 
0,266 
0,244 
0,210 
0,174 
0,136 
0,116 
0,096 
0,074 
0,052 


9 


0,867 
0,691 
0,570 
0,485 
0,423 
0,373 
0,337 
0,307 
0,281 
0,242 
0,200 
0,157 
0,134 
0,110 
0,085 
0,059 


10 


0,788 
0,602 
0,488 
0,412 
0,357 
0,315 
0,283 
0.297 
0,235 
0,202 
0,167 
0,130 
0,111 
0,092 
0,071 
0,050 


10 


0,854 
0,674 
0,554 
0,470 
0,408 
0,362 
0,325 
6,295 
0,270 
0,232 
0,192 
0,150 
0,128 
0,105 
0,082 
0,057 


16 


0,734 
0,547 
0,437 
0,364 
0,314 
0,276 
0,246 
0,223 
0,203 
0,174 
0,143 
0,111 
0,094 
0,077 
0,060 
0,041 


16 


0,795 
0,606 
0,488 
0,409 
0,353 
0,310 
0,278 
0,251 
0,230 
0,196 
0,161 
0,125 
0,106 
0,087 
0,067 
0,046 


36 
0,660 
0,475 
0,372 
0,307 
0,261 
0,228 
0,202 
0,182 
0,166 
0,140 
0,114 
0,088 
0,074 
0,060 
0,046 
0,032 


36 


0,707 
0,515 
0,406 
0,335 
0,286 
0,249 
0,221 
0,199 
0,181 
0,154 
0,125 
0,096 
0,081 
0,066 
0,050 
0,034 


Bij een gering verschil in aantal vrijheidsgraden neemt men het gemiddelde van deze aan- 


tallen. 





bovengrens 
controlelijn 


ondergrens 


x-kaart R-kaart R-kaart 
meno niet gegeven | с niet gegeven с gegeven 
х + AR | х + A38 D4R Dao 
Ж X R do 
# dert |E Aaf D3R Dio 
А? Аз | D3 | D4 | 42 | Di | Р» 
1,880 2,659 0 3,267 | 1,128 0 3,686 
1,023 1,954 0 2,575 | 1,693 0 4,358 
0,729 1,628 0 2,282 | 2,059 0 4,698 
0,577 1,427 0 2.113 | 2,326 0 4,918 
0,483 1,287 0 2 004. | 2.534 0 5,078 
0,419 1,182 0,076 | 1,924 | 2,704 | 0,205 | 5,203 
0,373 1,099 0,136 | 1,864 | 2,847 | 0,387 | 5,307 
0,337 1,032 0,184 | 1,816 | 2,970 | 0,546 | 5,394 
0,308 0,975 0,223 | 1,777 | 3,078 | 0,687 | 5,469 
0,285 0,927 0256 | 1,744 | 3.173 | 0812. | 5,334 
0,266 0,886 0,284 | 1,716 | 3,258 | 0,924 | 5,592 
0,249 0,850 0,308 | 1,692 | 3,336 | 1,026 | 5,646 
0,235 0,817 0,329 | 1,671 | 3,407 | 1,121 | 5,693 
0,223 0,789 0348 | 1652 |3472 | 1207 | 5,737 


s-kaart 
с gegeven 

Вэс 

CA 

Bjo 

C4 Bi 
0,7979 0 1,843 
0,8862 0 1,858 
0,9213 0 1,808 
0,9400 0 1,756 
0.9515 | 0.026 | 171 
0,9594 | 0,105 | 1,672 
0,9650 | 0,167 | 1,638 
0,9693 | 0,219 | 1,609 
0,9727 | 0,262 | 1,584 
0,9754 | 0,299 | 1,561 
0,9776 | 0,331 | 1,541 
0,9794. | 0,359 | 1,523 
0,9810 | 0,384 | 1,507 
0,9823 | 0,406 | 1,492 


s-kaart 


с niet gegeven 


Bas 


Uni 


cka 


uajieevajoazuoo do uoufij иел Buiuovarag 100A иәзиеуѕиод 


906 








ПӘ|[ӘдЕ]| 



















x-kaart R-kaart R-kaart s-kaart s-kaart 





Lg 
ПӘПӘЧЕ] 


и еп с niet gegeven | с niet gegeven о gegeven о gegeven с niet gegeven 
bovengrens | х + АВ | х + Аз DaR D20 Вэс B45 
controlelijn X d R doo CA 5 < 

e e ge e. 

ondergrens | х — А2 В | х — А35 Рз В Dio Bio B35 6 

dë 

n А» Аз | D3 | D4 | dz | Di | Р» | C4 | В| | By | B3 | B4 | — 
16 0,212 0,763 0,364 | 1,636 | 3,532 | 1,285 | 5,779 | 0,9835 | 0,427 | 1,478 | 0,448 | 1,552 
17 0,203 0,739 0,379 | 1,621 | 3,588 | 1,359 | 5,817 | 0,9845 | 0,445 | 1,465 | 0,466 | 1,534 
18 0,194 0,718 0,392 | 1,608 | 3,640 | 1,426 | 5,854 | 0,9854 | 0,461 | 1,454 | 0,482 | 1,518 
19 0,187 0,698 0,404 | 1,596 | 3,689 | 1,490 | 5,888 | 0,9862 | 0,477 | 1,443 | 0,497 | 1,503 
20 0,180 0,680 0,414 | 1,586 | 3,735 | 1,548 | 5,922 | 0,9869 | 0,491 | 1,433 | 0,510 | 1,490 
21 0,173 0,663 0,425 | 1,575 | 3,778 | 1,606 | 5,950 | 0,9876 | 0,504 | 1,424 | 0,523 | 1,477 
22 0,167 0,647 0,434 | 1,566 | 3,819 | 1,659 | 5,979 | 0,9882 | 0,516 | 1,415 | 0,534 | 1,466 
23 0,162 0,633 0,443 | 1,557 | 3,858 | 1,710 | 6,006 | 0,9887 | 0,527 | 1,407 | 0,545 | 1,455 
24 0,157 0,619 0,452 | 1,548 | 3,895 | 1,759 | 6,031 | 0,9892 | 0,538 | 1,399 | 0,555 | 1,445 


3,931 6,058 | 0,9896 | 0,548 





Hoofdstuk 3 


1. а. х„=115—96=19 


Bijlage С Antwoorden 





d AlsYis°F y= 129,7; sy = 4,23 en cy = 3,3% 


5. а es dend = ZA 
с. u= 27,5 епо = 2,4 
е. р = 7;5епо = 0,8 
g п = 82,5 епо = 7,2 


6. Klassen Klassenmidden 


6,0 - < 9,0 7,5 
9,0 - <12,0 10,5 
12,0- «15,0 13,5 
15,0- <18,0 16,5 
18,0 - <21,0 19,5 
21,0 - <24,0 22,5 
24,0 - <27,0 2 
27,0 - <30,0 28,5 
30,0 - <33,0 3 


х= 18.9 ens == 5:6 


7. а. Мо = 47: х = 56,9; Ме = 54,8 


с. Klassen Klassenmidden 
30-< 40 35 
40 - < 50 45 
50- < 60 55 
60-< 70 65 
70-< 80 ТӘ 
80-< 90 85 


90 - <100 95 
100 - <110 105 


а. Мо = 53:5 ==959;6; Мес 55,9 


b. = 20% 

b u= 82 епо = 0,8 
d w= ens = 7,2 
EL ess S епо = 0,8 
һ. = Taeng = 72 


Frequentie 


D: R= 71 
Frequentie 


7 


_ 


13 
17 


е. De sterk uitschietende waarde 105 verstoort het “werkelijke” beeld 
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Antwoorden 





8. a 

Klassen frequentie 
0,60 - <0,63 2 

0,63 - <0,66 4 

0,66 - <0,69 10 

0,69 - <0,72 22 

0,72 - <0,75 7 

0,75 - <0,78 3 

0,78 - <0,81 2 


b: x= 03702 ерх sz HH 


9. а 
ei rel. 
Klassen freq. " сит. 
freq 
freq. 
0- <4 3 0,06 0,06 
4- <8 11 0,22 0,28 
8- <12 14 0,28 0,56 
12-<16 9 0,18 0,74 
16-<20 6 0,12 0,86 
20-<24 2. 0,04 0,90 
24-<28 2 0,04 0,94 
28-<32 3 0,06 1,00 
єз t= 1264 ens == 7,2 
Hoofdstuk 4 
L а PLM) = тб: P(50 of ouder) = io: 
POH |опаег de 50) = 3; P (onder de 50| V) = 1 


b. Р(МП geen kinderen) = т; 
P(VU boven 50) = 7 


2 / 


Е, 15 1 
53 
2 а. 54 
5 
3 а. 17 
1 
Ee p 
а & + 
Ӯ 17 
2 
е T 


5. 0,8 x 0,7 + 0,5 х 0,05 + 0,1 х 0,25 = 0,61 


6. а. 02х07 +0,8 х 0,9 = 0,86 


d Ме = 11,1 en Мо = 10 


P(M |wel kinderen) = 2; P(wel kinderen| М) = 1; 


P (boven 50 N kinderen| М) = 2 





10. 


11. 


12. 


13. 


14. 


15. 


16. 


17. 


18. 


19. 


Antwoorden 
mennen 

















1000 А, 
1099 ~ 8334 
р 0,05 __ 50 
0,2 x 0,03 + 0,3 х 0,05 + 0,5 x 0,1 = 0,071 b орт = 20 
0,1 х 0,95 = 0,095 b. 0,095 + 0,08 х 0,9 = 0,177 
0,9x0,08 _ 
0177 = 0.4068 
СР РЯ ЧИГ b 21015 
11 10 11 10 mO Др з — 22 
1 3 
15 5 
` d nee want H x 2 # 2 
6 
11 
8% 7 =56 b. 2 x (6 x2) = 24 
12 
55 = 1260 b. эту = 15120 
x 4! = 864 
a. lop (45) = 1 op 8145060 b. OD _ 234 op 8145060 
‚ top (8) = top ‚ OD =234ор 
6 
3 7 
LX #2 
3) (4) (4) =02601 
364 363 362 346 | _ 
г f1 x 3 х 362 х 30 х Skier x H| = 041 
(0,95)! = 0,5987 b. 0,5987 + 10(0,05)(0,95)? = 0,9138 
г — {0,9138 + (17) (0,05)200,95)8 | = 0,0116 
14 13 12 1110 __ 6 1413 12 11 _ 
14 13 121110 — 0,1291 b. 0,1291 +5% 15110 = 0,5165 
1 — (0,5165 + (5) буту 14 B É = 0,1313 
(0,3)4 = 0,0081 b. 4!(0,3)(0,2)(0,1)(0,4) = 0,0576 


(5) (0,3)? (0,7)? = 0,2646 
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Hoofdstuk 5 


L P(K=l=l-P(K=0) = 1 – 0,3164 = 0,6836 

b PIE eiis 3 

3. P(K <1) = 0,4450 

4. PIK >2)=1— Р(К < 2) = 1- 0,6769 = 0,3231 

5. а P(A > Ци = 15е р = 005) = 1 — РЕК = 0) == 1 — 038633 = 0,3367 
b РОК = On = 15 en р = ОЛО) =:0;2059 

6. Р = 0,5972 

Г. 8. РЕК = 2) = 002296 р. РСК SI} == 059327 
c. Р(К < 2) = 0,4049 

8. Р(К = 2) = 0,0164 

9. а. PUE < 2) = 0,0620 
b. Р(К > 2) =1-– Р(К < 1) = 1 – 0,5578 = 0,4422 
с. Р(5< К < 8) = Р(К < 8) – Р(К < 4) = 0,4557 — 0,0550 = 0,4007 

10. P(K > 10) = 1- P(K < 9) = 1 – 0,7764 = 0,2236 

11. а, PER = D= 0,5) = 0,6065 De РСК == О] L) = 02232 
с. Р(К > 2|А = 1,5) = 1-– P(K = 1) = 1 — 0,5578 = 0,4422 

12. т:= 8 

13. а. Р(К = 0| hypergeometrische verdeling) = 0,40 bh РСК = 1):= 0,45 
G PO > 2) = 1 Р(К < 1) = 1 – {0,40 + 0,45} = 0,15 

14. а. Р(К = 0| hypergeometrische verdeling) = 0,18 D РСА == 0,073 

Hoofdstuk 6 


а. Р(Х < 53,2) = P(U < —0,59) = 0,2776 Б. P(X ок 70) = P(U = 0,25) = (4013 


с. Р(83,2 < X < 95,7) = Р(Х > 83,2) — Р(Х > 95,7) = 0,1814 — 0,0618 = 0,1196 
а. Р = 0,1506 е. Р = 0,0952 
Е. Р = 0,7366 


Р = 0,0475 








Antwoorden 





5. 438,85 euro 


6. 17,50 mm 


7. PK > MIB = 229 5 D= 0,1) = PIK > 3LIN = 27,5; о? = 20,25) = P(U > 2) = 0,0228 


8. Kans op overstromen: P(X > 108) = P(U > 1,96) = 0,025 


Bij 100 maal vullen: P(K > 1) = 1 — Р(К = 0| Bin(n = 100; p = 0,025)) = 1 — 0,0795 = 0,9205 


9. Р(К < 50| Bin(n = 100; р = 0,60)) = P(X < 50,5IN (u = 60; o? = 24) = P(U < —1,94) = 0,0262 


| 
10. е 3=0,7165 


— 
— 


Í 
11. ш = 2 min/gesprek = А = 5 gesprek/min > f(t) = ze 2 
L Dn 
a. PT > 2) = | ze Tdt=[-e 2] =е-! = 0,3679 

2 
р. Е(К) = 01. PO <2) +0,2- P(T > 2) = 01:01 P(T > 2)}+0,2- P(T > 2) 
Е(К) = 0,1: {1 — 0,3679} + 0,2 - 0,3679 = 0,137 euro 


— 


Hoofdstuk 7 
1. 0,0287 
2. 0,0548 
3. a. 0,0158 b. 0,1814 
с. 0,0272 
4. а. ик = 106 kgen og = 30 kg D: Bess 220,5 КЕ 
5 а. ug 355000 д = 1,701 bb r= Гене — ZALA 


CG MUM = 10,5 en OM = 2,946 


6. а. и =30dageneno = 3 dagen b. 44,12 dagen en 55,88 dagen 
c. 38,63 dagen d. 61,37 dagen 

7. 2,28% 

8. а. p = 7000 gram en o = 65 gram b. 0,2758 


с. 5@ 





















































314 Antwoorden 





9. 466 doosjes 


10. a. oc = mm b. 12,92% 
c. 20% 


E 


up = 3,4 ттеп ор = 0,4 mm 


е. 5% 
11. а. 26,6% b. 3784 uur 
с. 10,56% d. 3392 uur 


e. 16 lampjes 


12. 0,1003 


13. 0,8413 


14. u = 25 mm eno = 2 тт 


15. а. 0,2119 b. 0,9876 

16. а. 0,2743 b. 100% kans dat МА < Мв 
Hoofdstuk 8 

1. a. 0,970 b. 0.030 


с. 1,812; —2,228; —1,372; 2,764 


2 я, 005 b. 0,05 
c. 0,4101 d. 28,87; 7,02 
e. 69,6; 62,8 
3. a. [98,90; 109,30] b. [99,71: 108,49] 
4. [89,38; 90,62] 
%; [8,47; 10,50] 
б. [2,13; 10,83] 
Te а. [0,644; 0,756] b. 385 
с. [0,643; 0,757] 
8. [30,33%; 36,47%] 
9. a. [25,35; 87,29] b. ja 


[65,97%; 69,97%]; [14,49%; 17,64%]; [5,06%; 7,10%]; [8,97%; 11,36%] 


Antwoorden 








Hoofdstuk 9 


Hypothesen: Ho: ш = 112 en Hi: u < 112 (о = 0,05 eenzijdig) 
u-toets (o bekend) > P(U < —2,85) = 0,0022. Ho verwerpen; de broeken zijn te kort. 


Hypothesen: Ho: u = 7,1 en Н: и > 7,1 (æ = 0,05 eenzijdig) 
t-toets (о onbekend) > P(T < —2,74) bij v = 9. De overschrijdingskans: 0,01 < Р < 0,025. Ho 
verwerpen. 


t-toets voor twee onafhankelijke steekproeven. 
Hypothesen: Ho: ш. = Hp en Ну: Aa Æ шр (a = 0,05 tweezijdig) 


Eerst toetsen of sten 52 schattingen zijn van dezelfde о? m.b.v. de F-toets: F[4, да 6,16 Lët =5 
2 ‚30 


EA > 1,16) > 0,05. De beide steekproef varianties zijn schattingen van dezelfde о? 

2 berekenen als ееп gewogen gemiddelde уап sten 52: Er _ = 5,70 =s = 4576 
v = 9 vrijheidsgraden. 
T heeft waarde SLEE Ee == 2,22 

24 [1 5 +l 2; 

=® (0.025 = P(T = 2 22) < 0,05 (eenzijdig) 
= 0,05 < P(T < 2,22) < 0,10 (tweezijdig) 
Ho niet verwerpen. Geen verschil aangetoond tussen beide apparaten. 


2,4, met 


t-toets voor twee gepaarde steekproeven. 

Hypothesen: Ho: uy = Оеп Hi: uy # О (met V = B — A) (a = 0,05 tweezijdig) 
V = 1,89, sy = 7,5бепь=8—1=7. 

T heeft waarde Sch = 1,94 





sche 0,025 = РЕГ Ў 1,94) < 0,05 (eenzijdig) 
= 0,05 < P(T > 1,94) < 0,10 (tweezijdig) 
Ho niet verwerpen. Geen verschil aangetoond tussen beide apparaten. 


e 5 7 2? 
F-Toets voor twee varianties. Hypothesen: Ho: of = 05 en Н: с? Æ #5. 


5 
Е heeft waarde = Jim 


РЕБЕ > З am > 0, 05 (eenzijdig) 
> P(F > 3,97) > 0,10 (tweezijdig) 
Ho niet verwerpen. Geen verschil aangetoond tussen beide analisten. 





==3,97, meter = 9 en vz = 9 


Uitschieters: 1,45 en/of 1,10? Х = 1,259 en s = 0,089. 
=> 1,45 : T heeft waarde Ae = 2,15. 
= 0,025 < P(T > 2,15) < 0,05. 1,45 is uitschieter, maar geen storende uitschieter. 


= 1,10 : T heeft waarde Lët - = 1,79. 


> Р(Т > 2,15) > 0,05. 1,10 is geen uitschieter. 


k 
= 79.2 en Ze = 218,4 


Smax 


= Т = Je = — 0,363 
> P(T > 0,363) > 0,05. 79,2 is geen uitschieter. 


= 0,043, 52, = 0,312, s = 0,112, 2 = 0,475, s% = 2,572. 





$2 
SA 
k 
үэ}, 3,514 > Т = 2975 = 0,732 
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Antwoorden 





10. 


11. 


12. 


13. 


14. 


15. 


16. 


= P(T > 0,732) < 0,01. Steekproef E heeft een te grote variantie t.o.v. de andere steekproeven. Dit 
ontstaat door de waarde 2,9 in steekproef E. 


a. Т is het steekproefgemiddelde van vier waarnemingen. 


e А ” 
Onder Ho volgt Т ееп normale verdeling и = 3,5 en o = A ке}, 


b. P(T > 5,46) = P(U > %43) = P(U > 1,96) = 0,025 


Э ) 
с. Onder Ну volgt T een normale verdeling и = 6,75 en o = Ro Se A 


d P(T > 5,46lu = 6,75) = P(U > —1,29) = 1 = P(U < —1,29) = 1 = 0,0985 = 0,9015 
De waarde van T is 5,46 is de kritieke waarde. 
Het gebied rechts van 5,46 is het kritieke gebied 


De onbetrouwbaarheid van de toets о is in vraag b berekend: œ = 0,025 


= ge Ce e 


Het onderscheidingsvermogen 1 — В, is de kans dat T > 5,46 indien Ну waar is. 


Dit is in vraag d berekend: 1 — 6 = 0,9015. 


Chi-kwadraattoets. Toetsingsvariabele С met waarde 24,54 met v = 1 x 1 = І. 
P(C > 24,54] x?[1]) < 0.005 
Ho verwerpen. Er bestaat een effect door de reclamecampagne. 


Chi-kwadraattoets. Toetsingsvariabele С met waardel,029, met v = 1 x 2 = 2. 
P(C > 1,029|х2[2]) > 0,10. 
Ho niet verwerpen. Er bestaat geen verschil in besmetting bij de methoden A, B en C. 


Hypothesen: Ho: u = 8000 en Ну : и > 8000. t-toets voor één gemiddelde. 
Toetsingsvariabele T met waarde 8300—8000 = 1,342, met v = 19. 

1000//20 
P(T > 1,342) > 0,10. Hg niet verwerpen. De levensduur is niet langer dan 8000 uur. 


Hypothesen: Но: Er is geen verband tussen de afdeling en de werkomstandigheden, Ну: Er is wel een 
samenhang tussen de afdeling en de werkomstandigheden. Chi-kwadraattoets. Toetsingsvariabele C met 
waarde 24,32, met v = 2 x 2 = 4. 

P(T > 24,32 | x?[4]) < 0,01. 

Ho verwerpen, er bestaat een verband tussen de afdeling en de werkomstandigheden. 


Hypothesen: Ho: u = 500 en Ну: u < 500. u-toets voor één gemiddelde. 
Toetsingsvariabele U met waarde Ee = 2,143. 


Batz 


P(U > 2,14) > 0,0162. Ho verwerpen. Proces is verschoven, machine bijstellen. 


Ho: ид = ив en Hij: ид # ив. u-toets want de o's zijn bekend. 


Toetsingsvariabele U met waarde оо. = 1,84. 
12002 2 
/ 1200 + 1600 
ү 12 15 


P(U > 1,84) > 0,0329 (Eenzijdig) 
P(U > 1,84) > 0,0658 (Tweezijdig) 
Ho niet verwerpen. Er is (net) geen verschil tussen beide methoden aangetoond. 








Ho: с? = - 


2 2 
па = © voor 


2 
en. Baue, Se ач 


SC boor: F-toets voor 2 varianties. 


12 
Toetsingsvariabele Е[15, со] met waarde => = 1,44. 
Р(Е > 1,84| vj = 15); v2 = оо) > 0,05 (Eenzijdig) 


Ho niet verwerpen. De spreiding is niet groter geworden. 











Antwoorden 








17. Но: рд = рв = 0,5 еп Ну: рд > 0,5. К =aantal personen met voorkeur voor soep А. 
Onder Ho: К -~^Віп(п = 100 en р = 0,5) > N (u = 50; о? = 25). 
Р(К > 63 | Bin.) = Р(Х > 62,5 | Norm.) > P(U > 82—50) = P(U > 2,50) = 0,0062. 
Ho verwerpen. De voorkeur voor soep А is groter dan voor soep B. 


Hoofdstuk 10 
L $=38; Ун = 0; X (ri)? = 24 


2. #=2у+3; Уз; = 0; У)? = 0 


3. а. Das 1,76x + 14,53 b. £ = 0,00375у + 0,49 
с. р = 0,08 
4. а. Za 1,864 = 1,78; 4 = 0,53: + 1,06 b. 0.996 


с. ја (21,4 >> 1,86 х 11,7 — 1,78 + 35, = 19,98) 
5. а. ý = 0,00753х + 1,2533; х = 71,25у + 97,5 fk, бе bie 
6. Z = —86,9727 — 12,3757Х + 146,6868Y 


77 a=30,36enb= 1,445 


8. b. a{=0,116en b = 0,245 с. a=0,88en hb = 1,36 
9, 0,318 
10. a. 9,5% b. 4,56% 

с. —0,375 d. 0,08% 

e. 0,60 f. 0,80 


Hoofdstuk 11 


1. 89 + 312 — 89 + 2,6 


2. х = 319,6еп5 = 7,82 
x-kaart: Bovengrens: 332,4; norm: 319,6; ondergrens: 306,9 
s-kaart: Bovengrens: 17,7; norm: 7,8; ondergrens: 0. 


3. х= 322,3 en R = 9,7 
x-kaart: Bovengrens: 351,4; norm: 322,3; ondergrens: 293,2 
R-kaart: Bovengrens: 35,8; norm: 10,9; ondergrens: 0. 


4. х= 50,06 en s = 0,24 
x-kaart: Bovengrens: 50,53; norm: 50,06; ondergrens: 49,58 
s-kaart: Bovengrens: 0,63; norm: 0,24; ondergrens: 0. 
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Antwoorden 





10. 


Cp = 1,13 еп Сок = 1,13. Zowel niveau als spreiding ok. 


Capability van het proces: u+ A2 R = 255 + 0,729 x 11 = 255 +8 
Ср = Sierk = 1,2 > USL — 255 =3 x 4 > USL = 267 en LSL = 243 


а. Cp = 0,44 en С pk = 0,38 
Р(Х > 35,6| jl = 34,55 0 = 2,1) = РИТ > 1,19) =20,59% 
Р(Х < 28,5|. = 32,5; о = 2,1) = P(U < —1,48) = 13,34% 


Totaal 33,93% van de productie buiten de specificatiegrenzen. 
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Vv, 222 

о?(К), 88 

o, 88 

Ме, zie mediaan 
Mo, zie modus 
t-verdeling, 159 
var(K), 88 


afwijking 

—, significante, 175 

—, Systematische, 175 

—, toevallige, 175 

algemene optelregel, 62 
algemene productregel, 67, 73 
alternatieve hypothese, 175 
aselecte steekproef, 7 
assignable cause, 248 
attributieve eigenschap, 256 


beschrijvende statistiek, 3 
betrouwbaarheid, 154, 181 
betrouwbaarheidsinterval, 154 
binomiaalcoëfficiënt, 72 
binomiaalformule, 93 
binomiale kansvariabele, 91 
binomiale verdeling, 81, 90 


capability indices, 261 

Centrale Limietstelling van Laplace, 141 
cirkeldiagram, 17 

combinatie, 72 

complement, 56 

complementregel, 61, 74 
contingentietabel, 205 
continuïteitscorrectie, 122 

continue kansverdeling, 82, 107 
continue variabele, 10 





controlegroep, 201 
controlekaart, 248 

—, goed- of afkeur-, 250 

—, Shewhart-, 250 

—, voor individuen, 250 
correlatiecoëfficiënt, 222, 232 
correlatierekening, 221 
covariantie, 222, 235, 240 
cumulatieve frequentie, 26 
cumulatieve frequenties 

—, relatieve, 28 

cumulatieve kans, 128 
cumulatieve Poisson-verdeling, 102 
curve-fitting, 221 


data, 9, 19 

de x*-verdeling, 161 
deelverzameling, 56 
deterministische variabele, 11 


diagram 

—, Cirkel-, 17 

—, kolom- of staaf-, 17 
—, lijn-, 17 

—, punten-, 17 

—, scatter-, 17 


—, staafstapel-, 17 
discontinue variabele, 10 
discrete kansverdeling, 82 
discrete variabele, 10 
doorsnede, 56 


eerste kwartiel, 30 

enkelvoudige Poisson-verdeling, 102 

enquête, 8 

expectation, 44 

experimentele wet van de grote aantallen, 
44, 51 
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formule 

—, binomiaal-, 93 

— hypergeometrische, 96 

—, Poisson-, 101 

fout 

—, van de eerste soort, 175, 176 
—, van de tweede soort, 175, 177 
fractie, 92, 93 
frequentiepolygoon, 30 
frequentietabellen, 19 
frequentieverdelingen, 19 


gebeurtenis, 55 

gebeurtenissen 

—, afhankelijke, 68 

—, disjuncte, 60 

—, elkaar uitsluitende, 60 

—, onafhankelijke, 68 

gelote steekproef, 7 

gemiddelde, 31, 81 

—, binomiale verdeling, 93 

— gewogen, 33 

gepaarde waarnemingen, 193, 194 
gepoolde steekproef variantie, 197 
gewogen gemiddelde, 86, 88, 197 
goed- of afkeurkaart, 250 


histogram, 17, 20 
hypergeometrische formule, 96 
hypergeometrische verdeling, 90, 96 


ideale kromme, 35 
intercept, 222 
intervalschaal, 12 
intervalschatting 

— nauwkeurigheid, 168 
intervalschattingen, 154 


kansbegrip 

—, formele, 59 

—, klassieke definitie, 49 
—, relatieve frequentie, 51 


kansboom, 74 

kansdichtheid, 83, 107, 128 

— normale verdeling, 115 
kansdichtheidsfunctie, 107 
kansexperiment, 53 
kansfunctie, 83, 114 
kansrekening 

—, algemene optelregel, 62 

—, algemene productregel, 67, 73 
— complementregel, 61, 74 

—, Ooptelregel, 74 

—, speciale productregel, 68, 73 
kansvariabele, 11, 81 

—, som, 136 

— verschil, 136 

kansverdeling, 81 

—, continue, 81 

—, discrete, 81, 82 

–, —, binomiale, 90 

—, — hypergeometrische, 90, 96 
—, — Poisson-, 90, 100 
karakteristieke grootheden, 6 
klassen, 21 

klassenbreedte, 21 
klassengrenzen, 21, 23 
klassenmidden, 23 
klassenmiddens, 30 
kleinste-kwadraten-criteritum, 221 
kolom- of staafdiagram, 17 
kritieke waarden, 183 
kwalitatieve variabele, 10 

—, intervalschaal, 12 

—, ratioschaal, 12 
kwaliteitsindices, 259 
kwantitatieve variabele, 10 

—, nominale schaal, 12 

—, ordinale schaal, 12 


ligging, 31 
lijndiagram, 17 
lineaire regressie, 222 
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loting, 7 


mate van spreiding, 31 
mediaan, 31, 34 


methode van de kleinste kwadraten, 222 


modale klasse, 35 
modus, 31, 35 
Monte Carlo-stimulatie, 54 


nauwkeurigheid, 168 


negatief-exponentiële verdeling, 127 
niet-gepaarde waarnemingen, 193 
niet-rangschikbare variabele, 10 


nominale schaal, 12 
normale verdeling 

— kansdichtheid, 115 

—, parameters u en с, 115 
nulhypothese, 175 


onafhankelijke steekproeven, 194 


onbetrouwbaarheid, 176 


onbetrouwbaarheidsdrempel, 176 
onderscheidingsvermogen, 179, 181, 187 


optelregel, 74 
ordinale schaal, 12 
overschrijdingskans, 176 


parameter, 4 

parameters, 31 

permutatie, 69 
Poisson-formule, 101 
Poisson-verdeling, 81, 90, 100 
— cumulatieve, 102 

—, enkelvoudige, 102 
pooling, 197 

populatie, 4, 235 

proces capability interval, 259 
productregel, 73 

— algemene, 73 

—, speciale, 73 
puntendiagram, 17, 222 
puntschatters, 153 





random, 7 


range, 22 

rangschikbare variabele, 10 
ratioschaal, 12 
rechteroverschrijdingskans, 1 17 
regressie 

—, lineaire, 222 
regressie-analyse, 221 
regressielijn, 223 

—, tweede, 226 

regressievlak, 238 

rekenkundig gemiddelde, 31, 34 
— gewogen, 33 

relatieve cumulatieve frequenties, 28 
relatieve frequenties, 24 
representatieve steekproef, 6 
residu, 223 

richtingscoëfficiënt, 222 


scatterdiagram, 222 
scatterdiagrammen, 17 
schatten, 153 

schatter, 5 

schatting, 5 

scheve verdelingen, 22 
Shewhart-controlekaart, 250 
significant, 177 
significantietoets, 174 

SPC, 247 

speciale productregel, 68, 73 
spreidingsbreedte, 22 
staafstapeldiagram, 17 
standaard uniforme kansvariabele, 111 
standaardaf wijking, 43, 81 

— binomiale verdeling, 93 
standaardfout, 157, 229 
standaardnormale verdeling, 117 
standarddeviation, 43 
statistical process control, 247 
statistische procescontrole, 247 
steekproef, 5 
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—, aselecte, 7 

— — gemiddelde van, 143 

—, gelote, 7 

—, representatieve, 6 
steekproefsgewijs onderzoek, 5 
steekproeftheorie, 135 

stochas, 4, 11 

systematische afwijking, 175 


tijdreeks, 17 

toegepaste statistiek, 4 
toetsing 

—, linkseenzijdige, 181 
—, rechtseenzijdige, 181 
—, tweezijdige, 181 
toetsingsprocedure, 179 
toetsingsvariabele, 176 
toevallige afwijking, 175 
tweede regressielijn, 226 


uitbijter, 212 
uitkomstenruimte, 55 
uniforme continue kansvariabele, 111 


variabele, 9 

—, afhankelijke, 223 

—, deterministische, 11 
—, kwalitatieve, 10 

—, —, intervalschaal, 12 
—, —, niet-rangschikbare, 10 
—, — rangschikbare, 10 
—, —, ratioschaal, 12 

—, kwantitatieve, 10 

—, —, continue, 10 

—, —, discontinue, 10 

—, —, discrete, 10 

—, — nominale schaal, 12 
—, — Ordinale schaal, 12 
— onafhankelijke, 223 
variantie, 81, 88, 109, 235 
—, binomiale verdeling, 93 


—, Poisson-verdeling, 103 
variatie, 71 

Venn-diagram, 55 
verdeling 

— meertoppige, 37 

—, scheve, 36 

—, symmetrische, 36 
verdelingsfunctie, 83, 128 
vereniging, 56 
vergelijkingstoets, 193 
verschiltoets, 193 
verwachting, 81, 84, 85 
verwachtingswaarde, 81, 84, 85 
—, binomiale verdeling, 93 
— Poisson-verdeling, 103 
verzamelingenleer 

— complement, 56 

— deelverzameling, 56 
— doorsnede, 56 

— Venn-diagram, 55 

— vereniging, 56 
vrijheidsgraden, 159 


waarneming, 4 
waarnemingen 

—, gepaarde, 193 

—, niet-gepaarde, 193 | 
waarnemingsuitkomst, 4 
wegingsfactor, 86 
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